GP

GPT Realtime

多模态大模型

GPT Realtime

发布时间: 2025-08-28 22

模型参数(Parameters)
未披露
最高上下文长度(Context Length)
32K
是否支持中文
支持
推理能力(Reasoning)

模型基本信息

是否支持推理过程

不支持

最高上下文输入长度

32K tokens

最长输出结果

4096 tokens

模型类型

多模态大模型

发布时间

2025-08-28

模型预文件大小
暂无数据
推理模式
常规模式(Non-Thinking Mode)

开源和体验地址

代码开源状态
预训练权重开源
不开源 - 不开源
GitHub 源码
暂无GitHub开源地址
Hugging Face
暂无开源HuggingFace地址
在线体验

API接口信息

接口速度(满分5分)
接口价格
输入价格:
  • 文本: 4 美元/100 万tokens
  • 图片:
  • 音频: 32 美元/100 万tokens
  • 视频:
  • Embedding:
输出价格:
  • 文本: 16 美元/100 万tokens
  • 图片:
  • 音频: 64 美元/100 万tokens
  • 视频:
  • Embedding:

输入支持的模态

文本

输入支持

图片

输入不支持

视频

输入不支持

音频

输入支持

Embedding(向量)

输入不支持

输出支持的模态

文本

输出支持

图片

输出不支持

视频

输出不支持

音频

输出支持

Embedding(向量)

输出不支持

GPT Realtime模型在各大评测榜单的评分

发布机构

模型介绍

GPT-Realtime 是 OpenAI 于 2025 年 8 月 28 日发布的 speech-to-speech 模型。它能够通过单个模型和 API 处理从音频输入到音频输出的全流程,从而降低交互延迟并保留语音细节。该模型同步伴随 Realtime API 的更新一同推出。

模型特点

GPT-Realtime 将语音识别、理解、推理和语音生成整合在一个模型中,避免了传统“识别—推理—合成”的多阶段流程。这一结构减少了延迟,使语音交互能够更接近实时。

在语音生成方面,模型能够根据指令调整语速、节奏和风格,支持在对话中切换语言,并在生成过程中保持一致性。除了语言内容外,它还能够识别笑声、停顿等非语言提示,并将其纳入上下文。

在公开的评测中,GPT-Realtime 的表现相比前代模型有明显提升:

  • Big Bench Audio(音频推理任务):准确率 82.8%,前代为 65.6%。
  • MultiChallenge audio(多轮语音对话指令遵循):准确率 30.5%,前代为 20.6%。
  • ComplexFuncBench audio(函数调用任务):准确率 66.5%,前代为 49.7%。

此外,GPT-Realtime 新增了 Cedar 和 Marin 两种语音,并对现有语音进行了更新。

Realtime API 更新

GPT-Realtime 的发布伴随着 Realtime API 的一般可用版本,主要更新包括:

  • 实时音频流:支持低延迟的双向语音流交互。
  • 多模态输入:可在语音会话中加入图像作为输入。
  • SIP 电话呼叫:支持通过标准电话协议接入公共电话网络和企业 PBX 系统。
  • 可复用 Prompt:开发者可在不同会话间共享预设提示、工具与示例对话。
  • 远端 MCP 服务器:会话可直接调用远端工具目录,由 API 处理调用过程。
  • 上下文控制:可设置 token 上限并在长对话中批量截断,以降低成本。

安全与合规

GPT-Realtime 内置多层安全防护,包括实时活动分类器,可在检测到风险内容时中止会话。使用政策要求开发者在终端产品中明确告知用户正在与 AI 交互,并禁止将输出用于欺骗或冒名用途。所有语音均来自预设库,以降低伪造风险。

在企业与合规层面,Realtime API 提供欧盟数据驻留选项,满足部分地区对数据流向的监管要求。

定价信息

与预览版相比,Realtime API 的定价有所下调。新的价格为:

类型价格(每百万 token)备注

音频输入$32缓存输入 $0.40

音频输出$64

应用场景

GPT-Realtime 和 Realtime API 可以应用于多个领域:

  • 客户服务:通过 SIP 接入现有呼叫中心,处理多轮问题并调用外部系统。
  • 教育:提供语音驱动的学习辅导和多语言交互。
  • 医疗:作为语音问答工具,支持患者咨询与初步分诊。
  • 智能家居:与设备工具结合,实现语音控制。
  • 娱乐与社交:在游戏、虚拟角色或互动场景中实现实时语音互动。

行业洞察

GPT-Realtime 通过单模型端到端处理,降低了语音交互的复杂性。在标准化评测中,它在推理、指令遵循和函数调用方面均优于前代模型。这意味着在生产场景中,它可以更可靠地支持多轮语音交互和任务执行。

Realtime API 的扩展能力(SIP、图像输入、远端工具接入)使其更容易嵌入企业现有系统。结合合规功能(如数据驻留),其适用范围从个人应用延伸到受监管行业。

在应用层面,客服、教育、医疗和智能家居等领域可能率先采用该技术,以降低流程成本并提升用户体验。与此同时,随着语音交互逐渐普及,行业需要同时关注透明性与滥用风险,包括用户知情权与语音伪造防护。

总结

GPT-Realtime 标志着语音交互模型向端到端方向的转变。通过 Realtime API,它不仅提供了实时语音对话的能力,还扩展了多模态输入和系统集成方式。对开发者和企业而言,这一更新降低了构建生产级语音代理的门槛,并为多行业的应用提供了新的技术基础。

关注DataLearnerAI公众号

关注DataLearnerAI微信公众号,接受最新大模型资讯

DataLearnerAI WeChat