RAG 应用比任何其他 LLM 用例都更烧 Token,月账单轻松突破 10 万还没发现是怎么来的。问题不只是量大——而是你在用昂贵的模型做根本不需要它的事。
RAG 应用为什么这么贵
RAG 查询会把检索到的文档直接塞进上下文窗口,Token 消耗量是指数级的。一次典型的 RAG 查询拆解:
- 检索到的文档块:4,000-8,000 输入 Token
- 用户实际问题:200-500 Token
- 生成的回答:300-800 输出 Token
合计每次查询消耗 4,500-9,300 Token。按 GPT-5.4 的价格(输入 $2.50/百万,输出 $10/百万),单次 RAG 交互成本约 $0.02-0.03。一天 1 万次查询,每月光 Token 费用就超过 5 万元。
但大多数团队忽略了一件事:RAG 流水线里只有最终答案生成需要顶级推理能力,文档摘要、分块评分、查询扩展这些预处理步骤,经济模型完全能搞定。
混合路由策略
聪明的 RAG 实现会把不同任务路由到不同模型。我们做了大量测试,在不影响用户感知质量的前提下,持续实现 50-65% 的降本:
| 任务 | 模型档位 | 理由 |
|---|---|---|
| 最终答案合成 | A 档(GPT-5.4、Claude Sonnet) | 用户直接评判这个输出 |
| 文档摘要 | 经济档(GPT-5 Nano、Haiku) | 内部处理,用户不可见 |
| 分块相关性评分 | 经济档 | 二值/数值输出,简单推理 |
| 查询扩展 | 经济档 | 模式匹配,不需要复杂推理 |
| 向量化 | 专用模型(text-embedding-3-large) | 专门构建,高性价比 |
真实成本对比
以月处理 5 万次 RAG 查询的 B2B 知识库为例:
| 方案 | 月成本 | 质量评分 | 适用场景 |
|---|---|---|---|
| 全旗舰(GPT-5.4 全程) | $12,000-18,000 | 9.2/10 | 预算无上限 |
| 全经济(GPT-5 Nano 全程) | $1,200-2,000 | 6.8/10 | MVP/测试阶段 |
| 混合路由 | $4,500-7,500 | 8.9/10 | 生产系统 |
混合路由以全旗舰 35-60% 的成本,实现了 97% 的质量水平。用户无法区分最终答案的差异,但基础设施预算差距显而易见。
实现细节
Token Landing 的兼容 OpenAI 的端点让混合路由实现简单:
# 最终答案合成——A 档
client.chat.completions.create(
model="gpt-4o",
messages=[
{"role": "system", "content": "基于以下资料合成最终答案..."},
{"role": "user", "content": f"问题: {query}\n\n资料: {retrieved_chunks}"}
]
)
# 预处理——经济档
client.chat.completions.create(
model="gpt-4o-mini",
messages=[
{"role": "system", "content": "给这个文档块的相关性打 1-10 分..."},
{"role": "user", "content": f"查询: {query}\n文档块: {chunk}"}
]
)
迁移只需改 base URL,配置一次路由策略,系统自动优化后续所有请求。
混合路由不适用的场景
- 超低延迟需求:多次模型调用增加 200-500ms 开销
- 极简查询:单文档检索不需要多阶段处理
- 高度专业领域:法律、医疗内容可能需要全程顶级推理
- 小规模:月查询量低于 1000 次时,优化收益低于系统复杂度
快速开始
从 80/20 分割开始:80% 的 RAG 流水线走经济档,20%(最终合成)走旗舰档。监控质量指标两周,然后根据用户反馈调整。大多数团队用这个保守策略能立即看到 40-50% 的成本下降。