GPT Realtime
GPT Realtime
模型基本信息
开源和体验地址
官方介绍与博客
API接口信息
| 模态 | 输入 | 输出 |
|---|---|---|
| 文本 | $4 | $16 |
| 音频 | $32 | $64 |
评测得分
发布机构
模型解读
GPT-Realtime 是 OpenAI 于 2025 年 8 月 28 日发布的 speech-to-speech 模型。它能够通过单个模型和 API 处理从音频输入到音频输出的全流程,从而降低交互延迟并保留语音细节。该模型同步伴随 Realtime API 的更新一同推出。
模型特点
GPT-Realtime 将语音识别、理解、推理和语音生成整合在一个模型中,避免了传统“识别—推理—合成”的多阶段流程。这一结构减少了延迟,使语音交互能够更接近实时。
在语音生成方面,模型能够根据指令调整语速、节奏和风格,支持在对话中切换语言,并在生成过程中保持一致性。除了语言内容外,它还能够识别笑声、停顿等非语言提示,并将其纳入上下文。
在公开的评测中,GPT-Realtime 的表现相比前代模型有明显提升:
- Big Bench Audio(音频推理任务):准确率 82.8%,前代为 65.6%。
- MultiChallenge audio(多轮语音对话指令遵循):准确率 30.5%,前代为 20.6%。
- ComplexFuncBench audio(函数调用任务):准确率 66.5%,前代为 49.7%。
此外,GPT-Realtime 新增了 Cedar 和 Marin 两种语音,并对现有语音进行了更新。
Realtime API 更新
GPT-Realtime 的发布伴随着 Realtime API 的一般可用版本,主要更新包括:
- 实时音频流:支持低延迟的双向语音流交互。
- 多模态输入:可在语音会话中加入图像作为输入。
- SIP 电话呼叫:支持通过标准电话协议接入公共电话网络和企业 PBX 系统。
- 可复用 Prompt:开发者可在不同会话间共享预设提示、工具与示例对话。
- 远端 MCP 服务器:会话可直接调用远端工具目录,由 API 处理调用过程。
- 上下文控制:可设置 token 上限并在长对话中批量截断,以降低成本。
安全与合规
GPT-Realtime 内置多层安全防护,包括实时活动分类器,可在检测到风险内容时中止会话。使用政策要求开发者在终端产品中明确告知用户正在与 AI 交互,并禁止将输出用于欺骗或冒名用途。所有语音均来自预设库,以降低伪造风险。
在企业与合规层面,Realtime API 提供欧盟数据驻留选项,满足部分地区对数据流向的监管要求。
定价信息
与预览版相比,Realtime API 的定价有所下调。新的价格为:
类型价格(每百万 token)备注
音频输入$32缓存输入 $0.40
音频输出$64
应用场景
GPT-Realtime 和 Realtime API 可以应用于多个领域:
- 客户服务:通过 SIP 接入现有呼叫中心,处理多轮问题并调用外部系统。
- 教育:提供语音驱动的学习辅导和多语言交互。
- 医疗:作为语音问答工具,支持患者咨询与初步分诊。
- 智能家居:与设备工具结合,实现语音控制。
- 娱乐与社交:在游戏、虚拟角色或互动场景中实现实时语音互动。
行业洞察
GPT-Realtime 通过单模型端到端处理,降低了语音交互的复杂性。在标准化评测中,它在推理、指令遵循和函数调用方面均优于前代模型。这意味着在生产场景中,它可以更可靠地支持多轮语音交互和任务执行。
Realtime API 的扩展能力(SIP、图像输入、远端工具接入)使其更容易嵌入企业现有系统。结合合规功能(如数据驻留),其适用范围从个人应用延伸到受监管行业。
在应用层面,客服、教育、医疗和智能家居等领域可能率先采用该技术,以降低流程成本并提升用户体验。与此同时,随着语音交互逐渐普及,行业需要同时关注透明性与滥用风险,包括用户知情权与语音伪造防护。
总结
GPT-Realtime 标志着语音交互模型向端到端方向的转变。通过 Realtime API,它不仅提供了实时语音对话的能力,还扩展了多模态输入和系统集成方式。对开发者和企业而言,这一更新降低了构建生产级语音代理的门槛,并为多行业的应用提供了新的技术基础。
DataLearner 官方微信
欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送
