SALES & PRESALES TRAINING

AI Token
技术基础普及培训

帮助销售/售前建立能对客户复述的选型框架，而非算法原理

分钟培训

页内容

大模块

使用 ← → 键或滚动翻页

02 / 培训目标

培训目标与适用对象

本次材料偏实战沟通，不做算法论文式展开

看懂 Token 业务含义

理解 Token 在计费、吞吐和配额中的角色

分清平台类型

模型原厂、云平台、聚合平台的核心差异

解释关键指标

首字延迟、RPM、TPM、模型精度的业务含义

映射客户需求到模型

把业务需求翻译成模型能力和选型方向

适用对象：销售 / 售前 · 培训时长：60 分钟 · 信息截止：2026-05-17

03 / 核心概念

什么是 AI Token

基本定义

Token 是模型处理内容的基础计量单位，既影响计费，也影响吞吐和配额

客户说"买 Token"，实际在买

调用某个模型的能力
该模型在业务量下跑得动的吞吐
在成本、时延、稳定性、合规上可接受的交付

Token 既是计费单位，也是容量单位，还是售前沟通里的业务翻译器

计

计费

输入/输出/缓存/批量，口径可能不同

吞

吞吐

TPM、TPS、上下文长度、批处理规模

预

预算

模型大小不同，总成本会差很多

性

性能

上下文越长、输出越多、并发越高，体验越易受影响

04 / 核心概念

AI Token 是什么？ · 信息图

05 / 计量规则

Token 怎么计量

每次 API 调用的输入都包含全部历史会话——这是最容易忽略的成本因素

System Prompt~200 tokens

用户消息 #1+300

模型回复 #1+500

用户消息 #2（当前）+200

每次 API 调用，以上全部内容都要重新发送

第 1 轮

~500

tokens 输入

第 5 轮

~2,500

tokens 输入

第 10 轮

5,000+

tokens 输入

缓解手段：提示缓存（Prompt Caching）

可减少重复传输开销，但计费模型本质不变——每一轮的输入仍包含全部历史

06 / 计量规则

AI Token 怎么计量？ · 信息图

07 / 客户关注

为什么客户会关心 Token

Token 是把能力、成本、容量放到同一套尺子里

和价格有关

输入 / 输出 Token 会影响总成本，不同模型、不同输出长度，成本差异显著

{ }

和容量有关

TPM、上下文长度、批处理规模都与 Token 相关，长文本和大并发场景最先被打满

和体验有关

长上下文、高输出会影响速度，首字延迟决定用户的第一感受

08 / 计量规则

Token 放大效应 · 信息图

09 / 市场格局

中文场景：国产 vs 国外模型 · 信息图

09 / 市场格局

市场格局总览

不只分国内外，更要分模型原厂、云平台、聚合平台——三类平台卖的核心价值不同

模型原厂

原生能力和模型更新速度

代表平台

OpenAI, Anthropic, DeepSeek, MiniMax

模型迭代快、原生能力强

云平台

企业级治理、稳定交付和集成能力

代表平台

Azure, 百炼, 千帆, Bedrock

合规、审计、企业接入更完整

聚合平台

多模型选择、统一接口和灵活成本

代表平台

OpenRouter, 七牛云, 硅基流动

选择多、切换快、成本灵活

11 / 国内平台

国内主流平台与销售商

国内平台核心吸引力：更容易落地在本地业务环境，尤其是数据安全、审计、私有化部署

类别	代表平台	核心优势	典型局限
云平台	阿里云百炼、百度千帆、火山方舟、腾讯混元	企业接入、权限治理、区域与合规支持	模型选择未必覆盖全球最全
模型厂商	智谱、MiniMax、DeepSeek	原生模型能力清晰，部分场景更新快	周边企业能力可能不如大云平台
聚合平台	七牛云 AI 大模型推理、硅基流动	多模型统一接入、切换快、选型灵活	合规和服务口径需逐项确认

12 / 国外平台

国外主流平台与销售商

国外平台更适合强调两件事：顶尖模型首发和生态速度；某些模态或专业能力的领先性

类别	代表平台	核心优势	典型局限
模型原厂	OpenAI、Anthropic、Google Gemini	模型领先、文档完整、能力首发快	数据区域、合规、企业采购有门槛
云平台	Azure OpenAI、Amazon Bedrock	企业级交付、区域治理、配额管理	价格和可用性受云平台策略影响
聚合平台	OpenRouter、Together AI、Groq、Replicate	模型丰富、切换快、可做路由与 fallback	企业治理与长期 SLA 需单独确认

13 / 性能指标

首字延迟怎么理解

定义

用户发起请求后，到模型开始返回第一个有效 token 或首段可见内容的时间

为什么客户关心

直接影响"感觉快不快"。客服、编程补全、语音交互中，首字慢比总时长慢更让人觉得卡

影响因素

模型大小、服务层级、请求排队、上下文长度、工具调用、平台当前负载

业务含义

决定"第一感觉快不快"

常见误区

首字延迟低不代表完整响应一定快
演示时快不代表高峰期仍然快

如何评估

测3类典型请求：短问答、长上下文问答、带工具或复杂推理；并区分 P95 / P99

14 / 性能指标

RPM 和 TPM 怎么理解

RPM

Requests Per Minute

每分钟允许或可承载的请求数

决定"高峰时会不会频繁被限流"

适合"请求多但单次轻"的场景
客服、办公助手、外部 API 服务
RPM 高不代表吞吐一定高

TPM

Tokens Per Minute

每分钟能处理的 Token 数量

决定"长文本和大并发时扛不扛得住"

适合"请求不多但每次很重"的场景
长上下文、大输出、批量生成
估算：请求数 × 单次平均输入输出

15 / 性能指标

大模型推理常见概念 · 信息图

16 / 性能指标

看懂 LLM 核心规格 · 信息图

17 / 性能指标

模型精度怎么理解

不是单一数字

更像在某个任务、某种语言、某个评测方法下的综合表现，包括理解、推理、生成质量、事实性、代码能力、多模态能力

影响因素

模型架构、训练数据、任务类型、语言、提示词、上下文质量、是否使用检索增强

常见误区

榜单第一 ≠ 所有场景最优
英文榜单表现不能直接套用中文业务
模型精度 ≠ 系统整体效果

榜单决定"值不值得试"

业务测试决定"能不能上"

决定"结果值不值得业务信任"

18 / 模型类型

文本生成与代码模型

文本生成是大多数项目底座，但不是所有项目都该上最强模型

国外闭源

OpenAI：GPT-5.5 / o3 / o4-mini
Anthropic：Claude Opus 4.7 / Sonnet 4.6
Google：Gemini 3.1 Pro

国内闭源

字节：豆包 2.0 (Seed-2.0 Pro / Lite / Mini)
腾讯：混元 TurboS　阿里：千问 API (Qwen3.5)

开源路线

Meta：Llama 4 Scout / Maverick
阿里：Qwen3.5　DeepSeek：V4 / R1
智谱：GLM-5　MiniMax：M2.5　月之暗面：Kimi K2.6

选型建议

对话、总结、轻量办公和高并发客服 → mini / flash / lite
复杂推理、代码和高价值问答 → 旗舰模型

代码场景补充

通常还需要搭配 Embedding / 检索能力，关注正确率、上下文长度、私有代码安全

19 / 模型类型

模型智能排行榜 Artificial Analysis · 2026.5

#	模型	智能	价格/1M	t/s	延迟
1	GPT-5.5 (xhigh) OpenAI	60	$11.25	64	76.3s
2	GPT-5.5 (high) OpenAI	59	$11.25	66	29.0s
3	Claude Opus 4.7 (max) Anthropic	57	$10.94	52	23.7s
4	Gemini 3.1 Pro Preview Google	57	$4.50	125	31.2s
5	Kimi K2.6 Kimi	54	$1.71	71	2.9s
6	MiMo-V2.5-Pro Xiaomi	54	$1.50	52	3.0s
7	Grok 4.3 (high) xAI	53	$1.56	94	7.1s
8	Qwen3.6 Max Preview Alibaba	52	$2.92	38	3.4s
9	DeepSeek V4 Pro (Max) DeepSeek	52	$2.17	33	2.0s
10	GLM-5.1 Z AI	51	$2.15	55	1.4s
11	MiniMax-M2.7 MiniMax	50	$0.52	48	2.1s
12	DeepSeek V4 Flash DeepSeek	47	$0.18	94	1.2s

国内模型进入 Top 10

Kimi K2.6、Qwen3.6 Max、DeepSeek V4 Pro、GLM-5.1 智能指数均超 50，与海外旗舰差距持续缩小

性价比对比

DeepSeek V4 Flash 仅 $0.18/1M tokens，智能指数 47 — 适合高并发低价值场景

MiniMax-M2.7 $0.52/1M，智能指数 50 — 国内最高性价比之一

延迟竞争

国内模型首字延迟普遍 < 3s，GLM-5.1 仅 1.4s，适合实时对话场景

20 / 模型类型

图像生成与编辑模型

文生图

从文本直接生成图片

海报、角色图、广告素材、封面图、概念图

代表：GPT Image、Imagen、FLUX、Stable Diffusion

图生图 / 编辑

基于现有素材的可控修改

商品图改版、角色图迭代、海报扩展、风格迁移

代表：OpenAI 图像编辑、Ideogram、SD 生态

售前话术

客户如果要批量营销素材，先看风格一致性、出图速度和商用授权；如果要高审美创作，再看风格控制上限

关键差异

图生图比纯文生更可控——客户更在意"基于原图改得像不像、稳不稳"，而非从零生成得多惊艳

21 / 模型类型

图像模型排行榜 Artificial Analysis · 2026.5

文生图 Text-to-Image

#	模型	Elo
1	GPT Image 2 (high) OpenAI	1338
2	GPT Image 1.5 (high) OpenAI	1266
3	Gemini 3.1 Flash Image Google	1264
4	Gemini 3 Pro Image Google	1221
5	Seedream 4.0 ByteDance	1195

图像编辑 Image Editing

#	模型	Elo
1	GPT Image 1.5 (high) OpenAI	1263
2	GPT Image 2 (high) OpenAI	1251
3	Gemini 3 Pro Image Google	1238
4	Gemini 3.1 Flash Image Google	1232
5	HunyuanImage 3.0 Tencent	1222

国内厂商入榜

Seedream 4.0（字节）文生图第5，HunyuanImage 3.0（腾讯）编辑第5且为开源最佳

开源最佳

文生图开源第一：HiDream-O1-Image-Dev Elo 1184

编辑开源第一：HunyuanImage 3.0 Elo 1222

22 / 模型类型

语音生成与克隆模型

文生音 TTS

播报、配音、语音助手、电话机器人

代表：OpenAI Speech、Azure Speech、ElevenLabs

音色克隆

品牌声线、数字人播报、影视配音替换、多语种配音

代表：ElevenLabs Cloning、Azure Custom Neural Voice

核心指标

自然度 / 稳定性 / 语种 / 授权

合规提醒

音色克隆一定要提前谈清楚授权、声音权、录音样本质量和合规审批

23 / 模型类型

音乐生成排行榜 Artificial Analysis · 2026.5

#	模型	Elo
1	Suno V5.5 Suno	1210
2	Mureka V8 MiniMax	1190
3	Suno V5 Suno	1175
4	Lyria 3 Pro Google	1146
5	Suno V4.5 Suno	1116

国内模型入榜

Mureka V8（MiniMax）排名第二，Elo 1190，与 Suno V5.5 仅差 20 分

市场格局

Suno 系列占据 Top 5 中 3 席，持续领跑音乐生成赛道；Google Lyria 3 Pro 新入榜即排第四

选型要点

音乐生成更关注风格匹配度、节拍稳定性和商业授权，Elo 差距 20-30 分在实际听感上差异不大

24 / 模型类型

视频生成与编辑模型

文生视频

创意提案和短内容工业化——广告短片、剧情片段、视觉草稿

代表：Runway、Google Veo、MiniMax 视频、Kling

图生视频

已有素材的动态扩展——静态图转动态视频、镜头预演

业务里真正要看

主体稳定性

镜头一致性

可编辑性

生成速度

定位：加速前期创意和批量内容生产，不要包装成替代完整制作团队

25 / 模型类型

视频模型排行榜 Artificial Analysis · 2026.5

文生视频 Text-to-Video

#	模型	Elo	价格
1	Seedance 2.0 720p ByteDance Seed	1223	—
2	HappyHorse-1.0 Alibaba-ATH	1214	即将上线
3	Kling 3.0 Omni 1080p KlingAI	1106	$16.80/min
5	Veo 3.1 Google	1102	$24.00/min
7	Sora 2 OpenAI	1088	$6.00/min

图生视频 Image-to-Video

#	模型	Elo
1	Seedance 2.0 720p ByteDance Seed	1179
2	HappyHorse-1.0 Alibaba-ATH	1164
3	grok-imagine-video xAI	1088
5	Veo 3.1 Google	1083

国内模型领跑视频生成

字节 Seedance 2.0 和阿里 HappyHorse-1.0 包揽文生视频和图生视频双榜第一，Kling 系列多型号入榜

26 / 应用场景

客服与知识库场景

核心不是只有聊天模型——售前最容易被低估的场景

标准能力组合

文本模型+Embedding+Rerank

真正决定系统能不能用的

引用可追溯，而非只看回答像不像人
权限隔离，不同角色不同知识范围
知识更新机制，保证时效性
幻觉率控制，影响业务信任

架构示意

用户提问

↓

Embedding 检索

↓

Rerank 排序

↓

LLM 生成回答

↓

引用溯源

27 / 应用场景

编程与办公提效场景

{ }

编程场景

代码生成、补全、重构、单测
接口文档、SQL 和脚本辅助

关键指标

正确率、长上下文、私有代码安全

办公场景

总结、检索、跨系统动作
会议纪要、邮件草拟、合同摘要

关键指标

数据安全、引用准确性、系统集成

不是都要上旗舰模型——轻量场景用 mini / flash / lite 更合适，复杂推理再用旗舰

28 / 应用场景

营销、电商与本地化

这是"文本 + 图像 + 视频 + 语音"的组合型场景

文本

文案、脚本、话术

图像

主图、素材、活动页

视频

短视频脚本、直播话术

语音

配音、多语种客服

电商典型需求

商品文案、主图生成
短视频脚本、直播话术

本地化典型需求

翻译、字幕、配音
多语种客服与营销内容

29 / 应用场景

漫剧、影视与数字人

核心概念：内容工业化生产，而不是单一模型炫技

漫剧

典型需求

剧本、角色、分镜、配音、视频

模型组合

文本+图像+语音+视频

影视

典型需求

字幕、本地化、镜头延展、海报

模型组合

语音识别+翻译+图像+视频

数字人

典型需求

品牌声线、播报、互动营销

模型组合

TTS+克隆+视频生成

客户真正关心：风格一致性、人物稳定性、出片速度、版权风险、批量成本

30 / 应用场景

高合规行业场景

金融

政企

医疗

典型需求

文档摘要、知识助手、研究辅助
流程问答、培训助手、合规审查辅助

重点不在模型效果

数据不出域
权限治理和审计能力
部署方式（私有化 / 混合部署）
稳定 SLA

售前提醒：高合规客户通常先问安全边界，再问模型能力。云平台治理能力往往和模型能力同等重要

31 / 选型方法

售前选型框架

先按任务选能力，再按时延和并发选平台，最后按预算和合规收窄范围

按任务类型选模型

问答/写作 → 文本生成 | 知识库 → +Embedding/Rerank | 营销 → 文本+图像+视频 | 语音 → TTS+ASR+克隆

按时延和并发选平台

对话实时 → 首字延迟 | 多用户并发 → RPM | 长文本大输出 → TPM | SLA 要求 → 服务层级

按预算和合规收窄

预算敏感 → mini/flash/聚合 | 合规敏感 → 云平台/私有化 | 快速试错 → 聚合平台

初筛 5 问

核心任务是什么？

效果/速度/成本优先级？

并发和单次消耗多大？

数据区域和审计有硬要求吗？

先验证还是直接上线？

32 / 常见问题

常见客户问题回答模板

客户的问题表面在问价格和参数，实质通常在问"风险、确定性和可落地性"

为什么你家比别家贵或便宜？

价格差异不只来自模型本身，还来自交付方式、服务层级、区域、并发配额、企业治理能力。建议把单价和效果、时延、稳定性、合规一起看。

为什么同样是大模型，效果差这么多？

不同模型在中文、代码、多模态、长上下文上的强项不同；同一模型在不同平台上的服务层级、限流、工具链也会影响效果。

为什么 Demo 很快，上线却变慢了？

演示通常是低并发、短上下文、理想网络；上线受 RPM、TPM、峰值流量、上下文长度和服务等级影响，生产环境要单独评估。

开源是不是一定更便宜？

不一定。开源省掉部分调用费，但会带来算力、部署、运维、优化和人员成本。对稳定性和合规要求高的场景，闭源或云平台未必更贵。

33 / 总结

总结与问答

一句话记住的选型原则

先看任务类型，再看模型名字

先看效果和时延，再看单价

高并发看 RPM，大上下文看 TPM，交互体验看首字延迟

知识库项目一定把 Embedding / Rerank 一起考虑

高合规行业里，部署和治理与模型一样重要

Q & A

AI Token技术基础普及培训

培训目标与适用对象

看懂 Token 业务含义

分清平台类型

解释关键指标

映射客户需求到模型

什么是 AI Token

基本定义

客户说"买 Token"，实际在买

计费

吞吐

预算

性能

AI Token 是什么？ · 信息图

Token 怎么计量

AI Token 怎么计量？ · 信息图

为什么客户会关心 Token

和价格有关

和容量有关

和体验有关

Token 放大效应 · 信息图

中文场景：国产 vs 国外模型 · 信息图

市场格局总览

原生能力和模型更新速度

企业级治理、稳定交付和集成能力

多模型选择、统一接口和灵活成本

国内主流平台与销售商

国外主流平台与销售商

首字延迟怎么理解

定义

为什么客户关心

影响因素

常见误区

如何评估

RPM 和 TPM 怎么理解

RPM

TPM

大模型推理常见概念 · 信息图

看懂 LLM 核心规格 · 信息图

模型精度怎么理解

不是单一数字

影响因素

常见误区

文本生成与代码模型

国外闭源

国内闭源

开源路线

选型建议

代码场景补充

模型智能排行榜 Artificial Analysis · 2026.5

国内模型进入 Top 10

性价比对比

延迟竞争

图像生成与编辑模型

从文本直接生成图片

基于现有素材的可控修改

售前话术

关键差异

图像模型排行榜 Artificial Analysis · 2026.5

文生图 Text-to-Image

图像编辑 Image Editing

国内厂商入榜

开源最佳

语音生成与克隆模型

合规提醒

音乐生成排行榜 Artificial Analysis · 2026.5

国内模型入榜

市场格局

选型要点

视频生成与编辑模型

视频模型排行榜 Artificial Analysis · 2026.5

文生视频 Text-to-Video

图生视频 Image-to-Video

国内模型领跑视频生成

客服与知识库场景

标准能力组合

真正决定系统能不能用的

编程与办公提效场景

编程场景

办公场景

AI Token
技术基础普及培训