Whisper

Whisper 预训练模型详情

模型全称

Whisper

发布组织

OpenAI

发布日期

2022-09-21

预训练文件大小

2.9GB

模型参数数量(亿)

1.55

发布论文

Robust Speech Recognition via Large-Scale Weak Supervision

Whisper 简介

Whisper是由Open AI训练并开源的语音识别模型,它在英语语音识别方面接近人类水平的鲁棒性和准确性。 Whisper是根据从网络上收集的680,000小时的多语言和多任务监督数据进行训练的。




结果表明,使用这样一个庞大而多样的数据集,可以提高对口音、背景噪音和技术语言的稳健性。此外,它还能实现多种语言的转录,以及从这些语言翻译成英语。OpenAI开放了模型和推理代码,作为建立有用的应用程序和进一步研究稳健语音处理的基础。


Whisper架构是一个简单的端到端方法,作为一个编码器-解码器转化器实现。输入的音频被分割成30秒的小块,转换为对数梅尔频谱图,然后传入编码器。解码器被训练来预测相应的文字说明,其中夹杂着特殊的标记,指导单一模型执行语言识别、短语级别的时间戳、多语言语音转录和英式语音翻译等任务。


其他现有的方法经常使用较小的、更紧密配对的音频-文本训练数据集,或使用广泛但无监督的音频预训练。由于Whisper是在一个大型和多样化的数据集上训练的,并没有针对任何特定的数据集进行微调,它并没有击败专门从事LibriSpeech性能的模型,这是一个著名的语音识别竞争基准。然而,当我们在许多不同的数据集上测量Whisper的零散性能时,我们发现它比那些模型要稳健得多,犯的错误要少50%。


Whisper的音频数据集中约有三分之一是非英语,它被交替赋予用原文转录或翻译成英语的任务。我们发现这种方法在学习语音到文本的翻译方面特别有效,并且在CoVoST2到英语翻译的零散过程中优于有监督的SOTA。


开源的模型

目前,OpenAI开源了五个预训练结果的模型,其中四个是纯英语的,提供了速度与准确性的权衡结果。


大小参数数量仅支持英语运行需要的内存大小相对速度
tiny3900万Y~1 GB~32x
base7400万Y~1 GB~16x
small2.44亿Y~2 GB~6x
medium7.69亿Y~5 GB~2x
large15.5亿N~10 GB1x



Whisper所属的领域
多模态学习

多模态学习

Multimodal Learning

35个资源

Whisper相关的任务
自动语音识别

自动语音识别

Automatic Speech Recognition

35个资源