大多数开发者都是在账单爆炸时才搞懂这件事:LLM 的费用不是被复杂的问题撑高的,而是被话痨的回答拖垮的。主流厂商的输出 Token 比输入贵 2-10 倍,一个爱写长回答的助手就能把你的预算打穿。
我们自己踩过这个坑:给客服机器人调了一个"详尽友善"的 system prompt,结果它开始用三段话回答是非题。当月 OpenAI 账单从 ¥2800 跳到 ¥8400,才发现问题出在哪里。
输入 Token 与输出 Token 的计价现实
输入 Token 是你发给 API 的内容——提示词、上下文、历史对话。输出 Token 是模型生成的回复。价差不是厂商乱定的:文本生成比文本处理需要消耗多得多的计算资源,每个 Token 都要单独跑一次推理。
当前主流模型的输入/输出价格对比:
| 模型 | 输入(每百万 Token) | 输出(每百万 Token) | 比例 |
|---|---|---|---|
| GPT-5.4 | $2.50 | $10.00 | 1:4 |
| Claude 3.5 Sonnet | $3.00 | $15.00 | 1:5 |
| Gemini 1.5 Pro | $1.25 | $5.00 | 1:4 |
| Llama 3.1 70B | $0.35 | $0.40 | 1:1.1 |
注意开源模型(如 Llama)的输入/输出价差极小,而顶级闭源模型最高可达 1:5。
补全长度如何主导费用
助手的"性格"直接影响你的钱包。一个爱展开说的助手,即使问题只有三个字,费用也能翻倍。
控制补全成本的几个手段:
- 设置 max_tokens 上限——客服场景建议 150,技术文档可以放宽到 500
- 使用结构化输出——JSON mode 或 function calling 强制简洁回答
- 线上去掉推理痕迹——思维链对用户不可见,但照样按输出 Token 计费
这些手段要配合路由与缓存一起用效果最好——简单查询走便宜模型,常见回答走缓存,输出 Token 消耗可以再砍 50%。
工具调用与隐藏计费
Function calling 会带来很多团队没想到的计费细节。函数 schema 和中间工具结果,通常在下一轮请求里按输入 Token 计费——或被 SDK 自动打包进消息体。
一次看似简单的"查天气"工具调用实际消耗:
- 函数 schema:约 200 个输入 Token
- 工具返回值注回上下文:约 100 个输入 Token
- 最终回复:若干输出 Token
这些开销要写入对外 API 文档,否则接入方月底一定会来追问。
混合计价与多档路由
如果你的产品把旗舰模型和经济模型混在一张价目表里,就需要在文档里说清楚哪类流量走哪条路——否则用户会被账单搞懵。
具体写法见混合 Token 方案:A 档处理用户可见的关键交互,性价比档处理后台批量任务,整体费用可以降低 40-70%,用户体验几乎感知不到差异。
监控与预警
按日设置计费预警,当日 Token 消耗超过日均 150% 时触发告警,300% 时硬停。大多数厂商提供 Usage API,可以编程方式追踪输入/输出比例。
每周关注这几个指标:每次请求的平均 Token 数、输入/输出比、每个用户交互的成本、补全长度的分布。突然飙升通常意味着 prompt 工程出了问题,或者模型行为发生了漂移。