三年后OpenAI再次发布自动语音识别和语音合成大模型（替换Whisper系列）：不开源，仅提供API，英文错字率已经下降到2.46%

2025年3月20日，OpenAI推出了三款新模型——gpt-4o-transcribe、gpt-4o-mini-transcribe 和 gpt-4o-mini-tts。前面2个是自动语音识别模型（ASR），最后一个是语音合成模型（TTS）。这些模型基于 GPT-4o 架构，本文将介绍这些模型、其能力、定价、可用性等方面。

模型	输入价格	输出价格	按音频时长估算
gpt-4o-mini-tts	$0.60	-	$0.015 / 分钟
gpt-4o-transcribe	$2.50	$10.00	$0.006 / 分钟
gpt-4o-mini-transcribe	$1.25	$5.00	$0.003 / 分钟

模型	输入价格	输出价格	按音频时长估算
gpt-4o-mini-tts	-	$12.00	$0.015 / 分钟
gpt-4o-transcribe	$6.00	-	$0.006 / 分钟
gpt-4o-mini-transcribe	$3.00	-	$0.003 / 分钟

三年后OpenAI再次发布自动语音识别和语音合成大模型（替换Whisper系列）：不开源，仅提供API，英文错字率已经下降到2.46%

DataLearner 官方微信

模型介绍

gpt-4o-transcribe：高级语音转文本能力

gpt-4o-mini-transcribe：性价比高的转录解决方案

gpt-4o-mini-tts：可自定义的文本转语音创新

OpenAI的ASR模型错字率的评价结果

OpenAI此次发布的三个模型均只有API访问

OpenAI的ASR模型和TTS模型的价格总结

OpenAI的语音识别和语音合成模型与市场其它模型对比

热门博客