Whisper
Whisper
模型参数
15.5亿
上下文长度
2K
中文支持
不支持
推理能力
模型基本信息
推理过程
不支持
上下文长度
2K tokens
最大输出长度
暂无数据
模型类型
暂无数据
发布时间
2022-09-21
模型文件大小
2.9GB
MoE架构
否
总参数 / 激活参数
15.5 亿 / 不涉及
知识截止
暂无数据
推理模式
暂无模式数据
开源和体验地址
代码开源状态
暂无数据
预训练权重开源
暂无数据
GitHub 源码
暂无GitHub开源地址
Hugging Face
暂无开源HuggingFace地址
在线体验
暂无在线体验地址
官方介绍与博客
DataLearnerAI博客
暂无介绍博客
API接口信息
接口速度
暂无数据
暂无公开的 API 定价信息。
评测得分
当前尚无可展示的评测数据。
发布机构
OpenAI
查看发布机构详情 模型解读
Whisper是由Open AI训练并开源的语音识别模型,它在英语语音识别方面接近人类水平的鲁棒性和准确性。 Whisper是根据从网络上收集的680,000小时的多语言和多任务监督数据进行训练的。

结果表明,使用这样一个庞大而多样的数据集,可以提高对口音、背景噪音和技术语言的稳健性。此外,它还能实现多种语言的转录,以及从这些语言翻译成英语。OpenAI开放了模型和推理代码,作为建立有用的应用程序和进一步研究稳健语音处理的基础。
Whisper架构是一个简单的端到端方法,作为一个编码器-解码器转化器实现。输入的音频被分割成30秒的小块,转换为对数梅尔频谱图,然后传入编码器。解码器被训练来预测相应的文字说明,其中夹杂着特殊的标记,指导单一模型执行语言识别、短语级别的时间戳、多语言语音转录和英式语音翻译等任务。
其他现有的方法经常使用较小的、更紧密配对的音频-文本训练数据集,或使用广泛但无监督的音频预训练。由于Whisper是在一个大型和多样化的数据集上训练的,并没有针对任何特定的数据集进行微调,它并没有击败专门从事LibriSpeech性能的模型,这是一个著名的语音识别竞争基准。然而,当我们在许多不同的数据集上测量Whisper的零散性能时,我们发现它比那些模型要稳健得多,犯的错误要少50%。
Whisper的音频数据集中约有三分之一是非英语,它被交替赋予用原文转录或翻译成英语的任务。我们发现这种方法在学习语音到文本的翻译方面特别有效,并且在CoVoST2到英语翻译的零散过程中优于有监督的SOTA。
开源的模型
目前,OpenAI开源了五个预训练结果的模型,其中四个是纯英语的,提供了速度与准确性的权衡结果。
| 大小 | 参数数量 | 仅支持英语 | 运行需要的内存大小 | 相对速度 |
|---|---|---|---|---|
| tiny | 3900万 | Y | ~1 GB | ~32x |
| base | 7400万 | Y | ~1 GB | ~16x |
| small | 2.44亿 | Y | ~2 GB | ~6x |
| medium | 7.69亿 | Y | ~5 GB | ~2x |
| large | 15.5亿 | N | ~10 GB | 1x |
基础模型
ControlNet
查看详情DataLearner 官方微信
欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送
