为什么 RAG 应用成本高
RAG 应用有独特的成本结构:大量输入 Token(检索到的文档塞入上下文)加上生成输出。单次 RAG 查询仅检索的文档块就可消耗 4,000-8,000 输入 Token。
核心挑战
生成步骤需要质量——用户评判的是最终答案。但文档摘要、分块排序和重排序是预处理步骤,经济模型同样胜任。
混合路由如何解决
最终答案生成走 A 档。文档摘要、分块评分和查询扩展走性价比档。向量化生成使用专用模型。典型节省:50-65%。
规模化成本对比
| 方案 | 月成本(估算) | 质量 |
|---|---|---|
| 全旗舰 | $12,000-18,000 | 最高 |
| 全经济 | 低 | 最终答案不稳定 |
| Token Landing 混合 | $4,500-7,500 | 答案质量高 |
快速开始
Token Landing 的 API 兼容 OpenAI——迁移只需换 base URL。