TokenLanding

输入与输出 token:同一通请求上的两块表

提示 token 与补全 token 通常不同价;各自含什么、为何输出能主导成本。

Updated: 2026-04-06

TL;DR

LLM API 对输入(提示)和输出(补全)Token 分别计价,输出通常贵 3–5 倍且占据账单主体。

大多数开发者都是在账单爆炸时才搞懂这件事:LLM 的费用不是被复杂的问题撑高的,而是被话痨的回答拖垮的。主流厂商的输出 Token 比输入贵 2-10 倍,一个爱写长回答的助手就能把你的预算打穿。

我们自己踩过这个坑:给客服机器人调了一个"详尽友善"的 system prompt,结果它开始用三段话回答是非题。当月 OpenAI 账单从 ¥2800 跳到 ¥8400,才发现问题出在哪里。

输入 Token 与输出 Token 的计价现实

输入 Token 是你发给 API 的内容——提示词、上下文、历史对话。输出 Token 是模型生成的回复。价差不是厂商乱定的:文本生成比文本处理需要消耗多得多的计算资源,每个 Token 都要单独跑一次推理。

当前主流模型的输入/输出价格对比:

模型输入(每百万 Token)输出(每百万 Token)比例
GPT-5.4$2.50$10.001:4
Claude 3.5 Sonnet$3.00$15.001:5
Gemini 1.5 Pro$1.25$5.001:4
Llama 3.1 70B$0.35$0.401:1.1

注意开源模型(如 Llama)的输入/输出价差极小,而顶级闭源模型最高可达 1:5。

补全长度如何主导费用

助手的"性格"直接影响你的钱包。一个爱展开说的助手,即使问题只有三个字,费用也能翻倍。

控制补全成本的几个手段:

  • 设置 max_tokens 上限——客服场景建议 150,技术文档可以放宽到 500
  • 使用结构化输出——JSON mode 或 function calling 强制简洁回答
  • 线上去掉推理痕迹——思维链对用户不可见,但照样按输出 Token 计费

这些手段要配合路由与缓存一起用效果最好——简单查询走便宜模型,常见回答走缓存,输出 Token 消耗可以再砍 50%。

工具调用与隐藏计费

Function calling 会带来很多团队没想到的计费细节。函数 schema 和中间工具结果,通常在下一轮请求里按输入 Token 计费——或被 SDK 自动打包进消息体。

一次看似简单的"查天气"工具调用实际消耗:

  • 函数 schema:约 200 个输入 Token
  • 工具返回值注回上下文:约 100 个输入 Token
  • 最终回复:若干输出 Token

这些开销要写入对外 API 文档,否则接入方月底一定会来追问。

混合计价与多档路由

如果你的产品把旗舰模型和经济模型混在一张价目表里,就需要在文档里说清楚哪类流量走哪条路——否则用户会被账单搞懵。

具体写法见混合 Token 方案:A 档处理用户可见的关键交互,性价比档处理后台批量任务,整体费用可以降低 40-70%,用户体验几乎感知不到差异。

监控与预警

按日设置计费预警,当日 Token 消耗超过日均 150% 时触发告警,300% 时硬停。大多数厂商提供 Usage API,可以编程方式追踪输入/输出比例。

每周关注这几个指标:每次请求的平均 Token 数、输入/输出比、每个用户交互的成本、补全长度的分布。突然飙升通常意味着 prompt 工程出了问题,或者模型行为发生了漂移。

Ready to cut your token bill?

Token Landing — hybrid AI tokens, Claude-class UX, saner spend

Related reading

All guides