接近人类水平的开源语音识别模型来了——OpenAI的Whisper

标签:语音识别 时间:2022-09-22 16:03:16.652 发布者:小木

论文名:Robust Speech Recognition via Large-Scale Weak Supervision
发布时间:2022-09
论文地址:https://cdn.openai.com/papers/whisper.pdf
代码地址:https://github.com/openai/whisper

原文摘要:我们研究了语音处理系统的能力,这些系统仅仅是为了预测互联网上的大量音频文本而训练的。当扩展到68万小时的多语言和多任务监控时,生成的模型可以很好地推广到标准基准测试,并且通常与以前的完全监控结果相竞争,但在零触发传输设置中不需要任何微调。与人类相比,模型接近其准确性和鲁棒性。我们正在发布模型和推理代码,作为进一步研究鲁棒语音处理的基础。