Whisper

Name: Whisper
Author: OpenAI

基础大模型Audio / RealtimeWhisper

Whisper

发布时间: 2022-09-21更新于: 2023-04-21 22:09:50.498803

在线体验GitHubHugging FaceCompare

模型参数

15.5亿

上下文长度

中文支持

不支持

推理能力

Whisper 是由 OpenAI 发布的 AI 模型，发布时间为 2022-09-21，定位为基础大模型，参数规模约为 15.5亿，上下文长度为 2K，模型文件大小约 2.9GB。

数据优先来自官方发布（GitHub、Hugging Face、论文），其次为评测基准官方结果，最后为第三方评测机构数据。了解数据收集方法

Whisper

模型基本信息

推理过程

不支持

思考模式

不支持思考模式

上下文长度

2K tokens

最大输出长度

暂无数据

模型类型

基础大模型

输入/输出模态

暂无数据

发布时间

2022-09-21

模型文件大小

2.9GB

MoE架构

否

总参数 / 激活参数

15.5亿 / 不涉及

知识截止

暂无数据

Whisper

开源和体验地址

代码开源状态

暂无数据

预训练权重开源

暂无数据

GitHub 源码

暂无GitHub开源地址

Hugging Face

暂无开源HuggingFace地址

在线体验

暂无在线体验地址

Whisper

官方介绍与博客

官方论文

Robust Speech Recognition via Large-Scale Weak Supervision

DataLearnerAI博客

暂无介绍博客

Whisper

API接口信息

接口速度

暂无数据

暂无公开的 API 定价信息。

Whisper

评测结果

当前尚无可展示的评测数据。

和其他模型对比

暂时没有为该模型整理的相关对比页面。

想自定义其他组合？打开对比工具

Whisper

发布机构

OpenAI

查看发布机构详情

Whisper

模型解读

Whisper是由Open AI训练并开源的语音识别模型，它在英语语音识别方面接近人类水平的鲁棒性和准确性。 Whisper是根据从网络上收集的680,000小时的多语言和多任务监督数据进行训练的。

结果表明，使用这样一个庞大而多样的数据集，可以提高对口音、背景噪音和技术语言的稳健性。此外，它还能实现多种语言的转录，以及从这些语言翻译成英语。OpenAI开放了模型和推理代码，作为建立有用的应用程序和进一步研究稳健语音处理的基础。

Whisper架构是一个简单的端到端方法，作为一个编码器-解码器转化器实现。输入的音频被分割成30秒的小块，转换为对数梅尔频谱图，然后传入编码器。解码器被训练来预测相应的文字说明，其中夹杂着特殊的标记，指导单一模型执行语言识别、短语级别的时间戳、多语言语音转录和英式语音翻译等任务。

其他现有的方法经常使用较小的、更紧密配对的音频-文本训练数据集，或使用广泛但无监督的音频预训练。由于Whisper是在一个大型和多样化的数据集上训练的，并没有针对任何特定的数据集进行微调，它并没有击败专门从事LibriSpeech性能的模型，这是一个著名的语音识别竞争基准。然而，当我们在许多不同的数据集上测量Whisper的零散性能时，我们发现它比那些模型要稳健得多，犯的错误要少50%。

Whisper的音频数据集中约有三分之一是非英语，它被交替赋予用原文转录或翻译成英语的任务。我们发现这种方法在学习语音到文本的翻译方面特别有效，并且在CoVoST2到英语翻译的零散过程中优于有监督的SOTA。

开源的模型

目前，OpenAI开源了五个预训练结果的模型，其中四个是纯英语的，提供了速度与准确性的权衡结果。

大小	参数数量	仅支持英语	运行需要的内存大小	相对速度
tiny	3900万	`Y`	~1 GB	~32x
base	7400万	`Y`	~1 GB	~16x
small	2.44亿	`Y`	~2 GB	~6x
medium	7.69亿	`Y`	~5 GB	~2x
large	15.5亿	N	~10 GB	1x

基础模型

ControlNet

查看详情

DataLearner 官方微信

欢迎关注 DataLearner 官方微信，获得最新 AI 技术推送