接近人类水平的开源语音识别模型来了——OpenAI的Whisper

标签：语音识别时间：2022-09-22 16:03:16.652 发布者：小木

论文名：Robust Speech Recognition via Large-Scale Weak Supervision

发布时间：2022-09

论文地址：https://cdn.openai.com/papers/whisper.pdf

代码地址：https://github.com/openai/whisper

原文摘要：我们研究了语音处理系统的能力，这些系统仅仅是为了预测互联网上的大量音频文本而训练的。当扩展到68万小时的多语言和多任务监控时，生成的模型可以很好地推广到标准基准测试，并且通常与以前的完全监控结果相竞争，但在零触发传输设置中不需要任何微调。与人类相比，模型接近其准确性和鲁棒性。我们正在发布模型和推理代码，作为进一步研究鲁棒语音处理的基础。