GPT Realtime
发布时间: 2025-08-28 22
不支持
32K tokens
4096 tokens
多模态大模型
2025-08-28
输入支持
输入不支持
输入不支持
输入支持
输入不支持
输出支持
输出不支持
输出不支持
输出支持
输出不支持
GPT-Realtime 是 OpenAI 于 2025 年 8 月 28 日发布的 speech-to-speech 模型。它能够通过单个模型和 API 处理从音频输入到音频输出的全流程,从而降低交互延迟并保留语音细节。该模型同步伴随 Realtime API 的更新一同推出。
GPT-Realtime 将语音识别、理解、推理和语音生成整合在一个模型中,避免了传统“识别—推理—合成”的多阶段流程。这一结构减少了延迟,使语音交互能够更接近实时。
在语音生成方面,模型能够根据指令调整语速、节奏和风格,支持在对话中切换语言,并在生成过程中保持一致性。除了语言内容外,它还能够识别笑声、停顿等非语言提示,并将其纳入上下文。
在公开的评测中,GPT-Realtime 的表现相比前代模型有明显提升:
此外,GPT-Realtime 新增了 Cedar 和 Marin 两种语音,并对现有语音进行了更新。
GPT-Realtime 的发布伴随着 Realtime API 的一般可用版本,主要更新包括:
GPT-Realtime 内置多层安全防护,包括实时活动分类器,可在检测到风险内容时中止会话。使用政策要求开发者在终端产品中明确告知用户正在与 AI 交互,并禁止将输出用于欺骗或冒名用途。所有语音均来自预设库,以降低伪造风险。
在企业与合规层面,Realtime API 提供欧盟数据驻留选项,满足部分地区对数据流向的监管要求。
与预览版相比,Realtime API 的定价有所下调。新的价格为:
类型价格(每百万 token)备注
音频输入$32缓存输入 $0.40
音频输出$64
GPT-Realtime 和 Realtime API 可以应用于多个领域:
GPT-Realtime 通过单模型端到端处理,降低了语音交互的复杂性。在标准化评测中,它在推理、指令遵循和函数调用方面均优于前代模型。这意味着在生产场景中,它可以更可靠地支持多轮语音交互和任务执行。
Realtime API 的扩展能力(SIP、图像输入、远端工具接入)使其更容易嵌入企业现有系统。结合合规功能(如数据驻留),其适用范围从个人应用延伸到受监管行业。
在应用层面,客服、教育、医疗和智能家居等领域可能率先采用该技术,以降低流程成本并提升用户体验。与此同时,随着语音交互逐渐普及,行业需要同时关注透明性与滥用风险,包括用户知情权与语音伪造防护。
GPT-Realtime 标志着语音交互模型向端到端方向的转变。通过 Realtime API,它不仅提供了实时语音对话的能力,还扩展了多模态输入和系统集成方式。对开发者和企业而言,这一更新降低了构建生产级语音代理的门槛,并为多行业的应用提供了新的技术基础。
关注DataLearnerAI微信公众号,接受最新大模型资讯