加载中...
加载中...
大模型 API 的定价模式已经从简单的按 Token 计费演变为多维度的分层定价体系。理解这些模式对于控制成本、优化性能至关重要。目前主流的定价模式主要包括以下四种:
实时响应,平衡延迟与成本
异步处理,成本降低 50%
超低延迟,支持语音交互
复用提示词,最高节省 90%
标准模式是大模型 API 最基础的调用方式,请求被实时处理并返回结果。这是大多数应用的默认选择,提供了延迟与成本之间的良好平衡。在标准模式下,输入和输出 Token 分别计费,输出 Token 的价格通常是输入的 2-4 倍。
Batch API 是 OpenAI 于 2024 年 4 月推出的异步处理模式,允许开发者一次性提交大量请求,系统在 24 小时内完成处理。这种模式特别适合对延迟不敏感的大规模数据处理任务。
Batch API 提供 50% 的价格折扣,适用于不需要即时响应的异步任务,如数据分析、内容总结和批量翻译。系统保证在 24 小时内返回结果。
将所有 API 请求按 JSONL 格式打包成单个文件
通过 Files API 上传文件,然后创建 Batch 任务
系统在 24 小时内利用空闲算力处理请求
处理完成后下载结果文件,包含所有响应
Realtime API 是为语音对话和低延迟交互设计的专用接口。它支持 Speech-to-Speech 的端到端处理,无需将语音转文字再转语音,大幅降低了延迟。这是构建语音助手、实时翻译等应用的首选方案。
Prompt 缓存是一种成本优化技术,允许将重复使用的提示词前缀缓存起来,后续请求复用缓存内容时只需支付极低的读取费用。Anthropic Claude 和 OpenAI 都支持这项功能,可以节省高达 90% 的输入成本并降低 85% 的延迟。
Prompt 缓存通过保存模型处理提示词时构建的"注意力状态"来工作,避免每次请求都从头计算。对于包含大量系统指令、文档或代码的应用,这可以带来显著的成本和延迟改善。
首次请求时,系统处理完整 Prompt 并将前缀部分缓存,费用略高于标准输入
后续请求命中缓存时,直接复用已缓存的计算结果,费用仅为标准的 10%
Anthropic 默认 5 分钟(可选 1 小时),OpenAI 根据使用频率自动管理
| 类型 | 价格倍率 | 示例 (Claude 3.5 Sonnet) |
|---|---|---|
| 标准输入 | 1.0x | $3.00 / 1M tokens |
| 缓存写入 (5min) | 1.25x | $3.75 / 1M tokens |
| 缓存写入 (1hour) | 2.0x | $6.00 / 1M tokens |
| 缓存读取 | 0.1x | $0.30 / 1M tokens |
| 定价模式 | 延迟 | 成本 | 最佳场景 |
|---|---|---|---|
| 标准模式 | 中等 | 标准 | 在线聊天、实时生成 |
| 批量模式 | 高 (≤24h) | 低 (-50%) | 数据分析、批量翻译 |
| 实时模式 | 极低 | 高 | 语音助手、实时翻译 |
| Prompt 缓存 | 低 | 极低 (-90%) | 重复 Prompt、长文档 |
实时交互场景(聊天、编程助手):选择标准模式,确保用户体验
批量数据处理(分析、翻译、总结):使用 Batch API,节省 50% 成本
语音对话应用:使用 Realtime API 获得最低延迟
重复性 Prompt(固定系统提示词):启用缓存功能,降低高达 90% 输入成本
成本敏感项目:结合 Batch API + Prompt 缓存 + 选择合适模型大小