SALES & PRESALES TRAINING

AI Token
技术基础普及培训

帮助销售/售前建立能对客户复述的选型框架,而非算法原理

60
分钟培训
27
页内容
5
大模块

使用 ← → 键或滚动翻页

02 / 培训目标

培训目标与适用对象

本次材料偏实战沟通,不做算法论文式展开

01

看懂 Token 业务含义

理解 Token 在计费、吞吐和配额中的角色

02

分清平台类型

模型原厂、云平台、聚合平台的核心差异

03

解释关键指标

首字延迟、RPM、TPM、模型精度的业务含义

04

映射客户需求到模型

把业务需求翻译成模型能力和选型方向

适用对象:销售 / 售前 · 培训时长:60 分钟 · 信息截止:2026-05-17

03 / 核心概念

什么是 AI Token

基本定义

Token 是模型处理内容的基础计量单位,既影响计费,也影响吞吐和配额

客户说"买 Token",实际在买

  • 调用某个模型的能力
  • 该模型在业务量下跑得动的吞吐
  • 在成本、时延、稳定性、合规上可接受的交付

Token 既是计费单位,也是容量单位,还是售前沟通里的业务翻译器

计费

输入/输出/缓存/批量,口径可能不同

吞吐

TPM、TPS、上下文长度、批处理规模

预算

模型大小不同,总成本会差很多

性能

上下文越长、输出越多、并发越高,体验越易受影响

04 / 计量规则

Token 怎么计量

每次 API 调用的输入都包含全部历史会话——这是最容易忽略的成本因素

System Prompt~200 tokens
用户消息 #1+300
模型回复 #1+500
用户消息 #2(当前)+200
!

每次 API 调用,以上全部内容都要重新发送

第 1 轮

~500

tokens 输入

第 5 轮

~2,500

tokens 输入

第 10 轮

5,000+

tokens 输入

缓解手段:提示缓存(Prompt Caching)

可减少重复传输开销,但计费模型本质不变——每一轮的输入仍包含全部历史

05 / 客户关注

为什么客户会关心 Token

Token 是把能力、成本、容量放到同一套尺子里

$

和价格有关

输入 / 输出 Token 会影响总成本,不同模型、不同输出长度,成本差异显著

{ }

和容量有关

TPM、上下文长度、批处理规模都与 Token 相关,长文本和大并发场景最先被打满

T

和体验有关

长上下文、高输出会影响速度,首字延迟决定用户的第一感受

06 / 市场格局

市场格局总览

不只分国内外,更要分模型原厂、云平台、聚合平台——三类平台卖的核心价值不同

模型原厂

原生能力和模型更新速度

代表平台

OpenAI, Anthropic, DeepSeek, MiniMax

模型迭代快、原生能力强

云平台

企业级治理、稳定交付和集成能力

代表平台

Azure, 百炼, 千帆, Bedrock

合规、审计、企业接入更完整

聚合平台

多模型选择、统一接口和灵活成本

代表平台

OpenRouter, 七牛云, 硅基流动

选择多、切换快、成本灵活

07 / 国内平台

国内主流平台与销售商

国内平台核心吸引力:更容易落地在本地业务环境,尤其是数据安全、审计、私有化部署

类别代表平台核心优势典型局限
云平台阿里云百炼、百度千帆、火山方舟、腾讯混元企业接入、权限治理、区域与合规支持模型选择未必覆盖全球最全
模型厂商智谱、MiniMax、DeepSeek原生模型能力清晰,部分场景更新快周边企业能力可能不如大云平台
聚合平台七牛云 AI 大模型推理、硅基流动多模型统一接入、切换快、选型灵活合规和服务口径需逐项确认
08 / 国外平台

国外主流平台与销售商

国外平台更适合强调两件事:顶尖模型首发和生态速度;某些模态或专业能力的领先性

类别代表平台核心优势典型局限
模型原厂OpenAI、Anthropic、Google Gemini模型领先、文档完整、能力首发快数据区域、合规、企业采购有门槛
云平台Azure OpenAI、Amazon Bedrock企业级交付、区域治理、配额管理价格和可用性受云平台策略影响
聚合平台OpenRouter、Together AI、Groq、Replicate模型丰富、切换快、可做路由与 fallback企业治理与长期 SLA 需单独确认
09 / 性能指标

首字延迟怎么理解

定义

用户发起请求后,到模型开始返回第一个有效 token 或首段可见内容的时间

为什么客户关心

直接影响"感觉快不快"。客服、编程补全、语音交互中,首字慢比总时长慢更让人觉得卡

影响因素

模型大小、服务层级、请求排队、上下文长度、工具调用、平台当前负载

业务含义

决定"第一感觉快不快"

常见误区

  • 首字延迟低不代表完整响应一定快
  • 演示时快不代表高峰期仍然快

如何评估

测3类典型请求:短问答、长上下文问答、带工具或复杂推理;并区分 P95 / P99

10 / 性能指标

RPM 和 TPM 怎么理解

R

RPM

Requests Per Minute

每分钟允许或可承载的请求数

决定"高峰时会不会频繁被限流"

  • 适合"请求多但单次轻"的场景
  • 客服、办公助手、外部 API 服务
  • RPM 高不代表吞吐一定高
VS
T

TPM

Tokens Per Minute

每分钟能处理的 Token 数量

决定"长文本和大并发时扛不扛得住"

  • 适合"请求不多但每次很重"的场景
  • 长上下文、大输出、批量生成
  • 估算:请求数 × 单次平均输入输出
11 / 性能指标

模型精度怎么理解

不是单一数字

更像在某个任务、某种语言、某个评测方法下的综合表现,包括理解、推理、生成质量、事实性、代码能力、多模态能力

影响因素

模型架构、训练数据、任务类型、语言、提示词、上下文质量、是否使用检索增强

常见误区

  • 榜单第一 ≠ 所有场景最优
  • 英文榜单表现不能直接套用中文业务
  • 模型精度 ≠ 系统整体效果

榜单决定"值不值得试"

业务测试决定"能不能上"

决定"结果值不值得业务信任"

12 / 模型类型

文本生成与代码模型

文本生成是大多数项目底座,但不是所有项目都该上最强模型

国外闭源

OpenAI:GPT-5.5 / o3 / o4-mini
Anthropic:Claude Opus 4.7 / Sonnet 4.6
Google:Gemini 3.1 Pro

国内闭源

字节:豆包 2.0 (Seed-2.0 Pro / Lite / Mini)
腾讯:混元 TurboS 阿里:千问 API (Qwen3.5)

开源路线

Meta:Llama 4 Scout / Maverick
阿里:Qwen3.5 DeepSeek:V4 / R1
智谱:GLM-5 MiniMax:M2.5 月之暗面:Kimi K2.6

选型建议

  • 对话、总结、轻量办公和高并发客服 → mini / flash / lite
  • 复杂推理、代码和高价值问答 → 旗舰模型

代码场景补充

通常还需要搭配 Embedding / 检索能力,关注正确率、上下文长度、私有代码安全

13 / 模型类型

模型智能排行榜 Artificial Analysis · 2026.5

#模型智能价格/1Mt/s延迟
1GPT-5.5 (xhigh) OpenAI 60$11.256476.3s
2GPT-5.5 (high) OpenAI 59$11.256629.0s
3Claude Opus 4.7 (max) Anthropic 57$10.945223.7s
4Gemini 3.1 Pro Preview Google 57$4.5012531.2s
5Kimi K2.6 Kimi 54$1.71712.9s
6MiMo-V2.5-Pro Xiaomi 54$1.50523.0s
7Grok 4.3 (high) xAI 53$1.56947.1s
8Qwen3.6 Max Preview Alibaba 52$2.92383.4s
9DeepSeek V4 Pro (Max) DeepSeek 52$2.17322.0s
10GLM-5.1 Z AI 51$2.15551.4s
11MiniMax-M2.7 MiniMax 50$0.52482.1s
12DeepSeek V4 Flash DeepSeek 47$0.18941.2s

国内模型进入 Top 10

Kimi K2.6、Qwen3.6 Max、DeepSeek V4 Pro、GLM-5.1 智能指数均超 50,与海外旗舰差距持续缩小

性价比对比

DeepSeek V4 Flash 仅 $0.18/1M tokens,智能指数 47 — 适合高并发低价值场景

MiniMax-M2.7 $0.52/1M,智能指数 50 — 国内最高性价比之一

延迟竞争

国内模型首字延迟普遍 < 3s,GLM-5.1 仅 1.4s,适合实时对话场景

14 / 模型类型

图像生成与编辑模型

文生图

从文本直接生成图片

海报、角色图、广告素材、封面图、概念图

代表:GPT Image、Imagen、FLUX、Stable Diffusion

图生图 / 编辑

基于现有素材的可控修改

商品图改版、角色图迭代、海报扩展、风格迁移

代表:OpenAI 图像编辑、Ideogram、SD 生态

售前话术

客户如果要批量营销素材,先看风格一致性、出图速度和商用授权;如果要高审美创作,再看风格控制上限

关键差异

图生图比纯文生更可控——客户更在意"基于原图改得像不像、稳不稳",而非从零生成得多惊艳

15 / 模型类型

图像模型排行榜 Artificial Analysis · 2026.5

文生图 Text-to-Image

#模型Elo
1GPT Image 2 (high) OpenAI 1338
2GPT Image 1.5 (high) OpenAI 1266
3Gemini 3.1 Flash Image Google 1264
4Gemini 3 Pro Image Google 1221
5Seedream 4.0 ByteDance 1195

图像编辑 Image Editing

#模型Elo
1GPT Image 1.5 (high) OpenAI 1263
2GPT Image 2 (high) OpenAI 1251
3Gemini 3 Pro Image Google 1238
4Gemini 3.1 Flash Image Google 1232
5HunyuanImage 3.0 Tencent 1222

国内厂商入榜

Seedream 4.0(字节)文生图第5,HunyuanImage 3.0(腾讯)编辑第5且为开源最佳

开源最佳

文生图开源第一:HiDream-O1-Image-Dev Elo 1184

编辑开源第一:HunyuanImage 3.0 Elo 1222

16 / 模型类型

语音生成与克隆模型

文生音 TTS

播报、配音、语音助手、电话机器人

代表:OpenAI Speech、Azure Speech、ElevenLabs

音色克隆

品牌声线、数字人播报、影视配音替换、多语种配音

代表:ElevenLabs Cloning、Azure Custom Neural Voice

核心指标

自然度 / 稳定性 / 语种 / 授权

合规提醒

音色克隆一定要提前谈清楚授权、声音权、录音样本质量和合规审批

17 / 模型类型

音乐生成排行榜 Artificial Analysis · 2026.5

#模型Elo
1Suno V5.5 Suno 1210
2Mureka V8 MiniMax 1190
3Suno V5 Suno 1175
4Lyria 3 Pro Google 1146
5Suno V4.5 Suno 1116

国内模型入榜

Mureka V8(MiniMax)排名第二,Elo 1190,与 Suno V5.5 仅差 20 分

市场格局

Suno 系列占据 Top 5 中 3 席,持续领跑音乐生成赛道;Google Lyria 3 Pro 新入榜即排第四

选型要点

音乐生成更关注风格匹配度、节拍稳定性和商业授权,Elo 差距 20-30 分在实际听感上差异不大

18 / 模型类型

视频生成与编辑模型

文生视频

创意提案和短内容工业化——广告短片、剧情片段、视觉草稿

代表:Runway、Google Veo、MiniMax 视频、Kling

图生视频

已有素材的动态扩展——静态图转动态视频、镜头预演

业务里真正要看

主体稳定性

镜头一致性

可编辑性

生成速度

定位:加速前期创意和批量内容生产,不要包装成替代完整制作团队

19 / 模型类型

视频模型排行榜 Artificial Analysis · 2026.5

文生视频 Text-to-Video

#模型Elo价格
1Seedance 2.0 720p ByteDance Seed 1223
2HappyHorse-1.0 Alibaba-ATH 1214即将上线
3Kling 3.0 Omni 1080p KlingAI 1106$16.80/min
5Veo 3.1 Google 1102$24.00/min
7Sora 2 OpenAI 1088$6.00/min

图生视频 Image-to-Video

#模型Elo
1Seedance 2.0 720p ByteDance Seed 1179
2HappyHorse-1.0 Alibaba-ATH 1164
3grok-imagine-video xAI 1088
5Veo 3.1 Google 1083

国内模型领跑视频生成

字节 Seedance 2.0 和阿里 HappyHorse-1.0 包揽文生视频和图生视频双榜第一,Kling 系列多型号入榜

20 / 应用场景

客服与知识库场景

核心不是只有聊天模型——售前最容易被低估的场景

标准能力组合

文本模型+Embedding+Rerank

真正决定系统能不能用的

  • 引用可追溯,而非只看回答像不像人
  • 权限隔离,不同角色不同知识范围
  • 知识更新机制,保证时效性
  • 幻觉率控制,影响业务信任

架构示意

用户提问

Embedding 检索

Rerank 排序

LLM 生成回答

引用溯源

21 / 应用场景

编程与办公提效场景

{ }

编程场景

  • 代码生成、补全、重构、单测
  • 接口文档、SQL 和脚本辅助

关键指标

正确率、长上下文、私有代码安全

W

办公场景

  • 总结、检索、跨系统动作
  • 会议纪要、邮件草拟、合同摘要

关键指标

数据安全、引用准确性、系统集成

不是都要上旗舰模型——轻量场景用 mini / flash / lite 更合适,复杂推理再用旗舰

22 / 应用场景

营销、电商与本地化

这是"文本 + 图像 + 视频 + 语音"的组合型场景

文本

文案、脚本、话术

图像

主图、素材、活动页

视频

短视频脚本、直播话术

语音

配音、多语种客服

电商典型需求

  • 商品文案、主图生成
  • 短视频脚本、直播话术

本地化典型需求

  • 翻译、字幕、配音
  • 多语种客服与营销内容
23 / 应用场景

漫剧、影视与数字人

核心概念:内容工业化生产,而不是单一模型炫技

漫剧

典型需求

剧本、角色、分镜、配音、视频

模型组合

文本+图像+语音+视频

影视

典型需求

字幕、本地化、镜头延展、海报

模型组合

语音识别+翻译+图像+视频

数字人

典型需求

品牌声线、播报、互动营销

模型组合

TTS+克隆+视频生成

客户真正关心:风格一致性、人物稳定性、出片速度、版权风险、批量成本

24 / 应用场景

高合规行业场景

金融

政企

医疗

典型需求

  • 文档摘要、知识助手、研究辅助
  • 流程问答、培训助手、合规审查辅助

重点不在模型效果

  • 数据不出域
  • 权限治理和审计能力
  • 部署方式(私有化 / 混合部署)
  • 稳定 SLA

售前提醒:高合规客户通常先问安全边界,再问模型能力。云平台治理能力往往和模型能力同等重要

25 / 选型方法

售前选型框架

先按任务选能力,再按时延和并发选平台,最后按预算和合规收窄范围

1

按任务类型选模型

问答/写作 → 文本生成 | 知识库 → +Embedding/Rerank | 营销 → 文本+图像+视频 | 语音 → TTS+ASR+克隆

2

按时延和并发选平台

对话实时 → 首字延迟 | 多用户并发 → RPM | 长文本大输出 → TPM | SLA 要求 → 服务层级

3

按预算和合规收窄

预算敏感 → mini/flash/聚合 | 合规敏感 → 云平台/私有化 | 快速试错 → 聚合平台

初筛 5 问

核心任务是什么?

效果/速度/成本优先级?

并发和单次消耗多大?

数据区域和审计有硬要求吗?

先验证还是直接上线?

26 / 常见问题

常见客户问题回答模板

客户的问题表面在问价格和参数,实质通常在问"风险、确定性和可落地性"

Q1

为什么你家比别家贵或便宜?

价格差异不只来自模型本身,还来自交付方式、服务层级、区域、并发配额、企业治理能力。建议把单价和效果、时延、稳定性、合规一起看。

Q2

为什么同样是大模型,效果差这么多?

不同模型在中文、代码、多模态、长上下文上的强项不同;同一模型在不同平台上的服务层级、限流、工具链也会影响效果。

Q3

为什么 Demo 很快,上线却变慢了?

演示通常是低并发、短上下文、理想网络;上线受 RPM、TPM、峰值流量、上下文长度和服务等级影响,生产环境要单独评估。

Q4

开源是不是一定更便宜?

不一定。开源省掉部分调用费,但会带来算力、部署、运维、优化和人员成本。对稳定性和合规要求高的场景,闭源或云平台未必更贵。

27 / 总结

总结与问答

一句话记住的选型原则

1

先看任务类型,再看模型名字

2

先看效果和时延,再看单价

3

高并发看 RPM,大上下文看 TPM,交互体验看首字延迟

4

知识库项目一定把 Embedding / Rerank 一起考虑

5

高合规行业里,部署和治理与模型一样重要

Q & A