输入 Token 与输出 Token：LLM API 怎么计费

大多数开发者都是在账单爆炸时才搞懂这件事：LLM 的费用不是被复杂的问题撑高的，而是被话痨的回答拖垮的。主流厂商的输出 Token 比输入贵 2-10 倍，一个爱写长回答的助手就能把你的预算打穿。

我们自己踩过这个坑：给客服机器人调了一个"详尽友善"的 system prompt，结果它开始用三段话回答是非题。当月 OpenAI 账单从 ¥2800 跳到 ¥8400，才发现问题出在哪里。

输入 Token 与输出 Token 的计价现实

输入 Token 是你发给 API 的内容——提示词、上下文、历史对话。输出 Token 是模型生成的回复。价差不是厂商乱定的：文本生成比文本处理需要消耗多得多的计算资源，每个 Token 都要单独跑一次推理。

当前主流模型的输入/输出价格对比：

模型	输入（每百万 Token）	输出（每百万 Token）	比例
GPT-5.4	$2.50	$10.00	1:4
Claude 3.5 Sonnet	$3.00	$15.00	1:5
Gemini 1.5 Pro	$1.25	$5.00	1:4
Llama 3.1 70B	$0.35	$0.40	1:1.1

注意开源模型（如 Llama）的输入/输出价差极小，而顶级闭源模型最高可达 1:5。

助手的"性格"直接影响你的钱包。一个爱展开说的助手，即使问题只有三个字，费用也能翻倍。

控制补全成本的几个手段：

这些手段要配合路由与缓存一起用效果最好——简单查询走便宜模型，常见回答走缓存，输出 Token 消耗可以再砍 50%。

Function calling 会带来很多团队没想到的计费细节。函数 schema 和中间工具结果，通常在下一轮请求里按输入 Token 计费——或被 SDK 自动打包进消息体。

一次看似简单的"查天气"工具调用实际消耗：

这些开销要写入对外 API 文档，否则接入方月底一定会来追问。

如果你的产品把旗舰模型和经济模型混在一张价目表里，就需要在文档里说清楚哪类流量走哪条路——否则用户会被账单搞懵。

具体写法见混合 Token 方案：A 档处理用户可见的关键交互，性价比档处理后台批量任务，整体费用可以降低 40-70%，用户体验几乎感知不到差异。

按日设置计费预警，当日 Token 消耗超过日均 150% 时触发告警，300% 时硬停。大多数厂商提供 Usage API，可以编程方式追踪输入/输出比例。

每周关注这几个指标：每次请求的平均 Token 数、输入/输出比、每个用户交互的成本、补全长度的分布。突然飙升通常意味着 prompt 工程出了问题，或者模型行为发生了漂移。