TokenLanding

输入与输出 token:同一通请求上的两块表

提示 token 与补全 token 通常不同价;各自含什么、为何输出能主导成本。

2026-04

TL;DR

LLM API 对输入(提示)和输出(补全)Token 分别计价,输出通常贵 3–5 倍且占据账单主体。

为何补全能掀翻成本

助手一啰嗦,问题再短费用也翻倍。限制最大补全、结构化输出、去掉线上无用的推理痕迹,常和 路由与缓存 一起用。

工具调用与隐藏字节

函数 schema 与中间工具结果常在下一轮计输入,或被 SDK 打包 inline。写入 对外文档,避免月底惊雷。

混合表计

若门面与性价比模型共用一张价目,要说清哪类流量走哪条道——见 混合 Token披露写法

Ready to cut your token bill?

Token Landing — hybrid AI tokens, Claude-class UX, saner spend

Related reading