DataLearner 标志DataLearnerAI
最新AI资讯
大模型评测
大模型列表
大模型对比
资源中心
AI工具导航

加载中...

DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
  1. 首页/
  2. 博客列表/
  3. 博客详情

MetaAI发布语音识别错误率是OpenAI的Whisper模型的一半且支持1107种语言的ASR模型:MMS

2023/05/24 00:00:09
2,134 阅读
ASRMetaAIMMSTTS语言识别

今天,Meta的首席AI科学家Yann LeCun在推特上宣布了MetaAI的最新研究成果:MMS,一个支持1107种语言的自动语音识别模型和语音合成模型,该模型自动语音识别的单词错误率只有OpenAI开源的Whisper的一半!但是支持的语言却有1107种,是Whisper的11倍!代码与预训练结果已开源,不过不可以商用哦~

本文将介绍MMS的原理,主要说明在缺少大规模标注数据集的情况下,MetaAI是如何实现支持这么多语言的模型的。MMS模型卡信息:https://www.datalearner.com/ai-models/pretrained-models/MMS

本文的内容如下

  • MMS模型简介
  • MMS模型的原理和技术方案
  • MMS创建的语音识别和语音合成相关的数据集
  • MMS模型的实验测试结果
  • MMS在自动语音识别(ASR)任务测试结果
  • MMS在语言识别( language identification (LID))任务测试结果
  • MMS在语音合成(TTS)任务上的效果
  • MMS模型的开源资源
  • MMS预训练模型下载地址
  • MMS微调训练模型下载地址
  • MMS语言识别模型下载地址
  • MMS语音合成模型下载地址
  • Examples:
  • MMS模型总结

MMS模型简介

MMS模型全称Massively Multilingual Speech,是MetaAI发布的一种语音模型,该模型支持自动语音识别(Auto Speech Recognition,ASR)和语音合成(Text-to-Speech,TTS)两种任务。

目前全球共有7000多种语言,但是现有的语音相关的模型只能覆盖其中的一百多种。由于缺少数据的支持,大部分语言的语音识别和合成都十分困难。

而MetaAI想到了一个好方法,就是利用宗教文本的录音数据,如圣经。这些文本已经被翻译成许多不同的语言,并且这些翻译的音频录音是公开可用的。这种方法使得MMS模型能够覆盖超过4000种语言。

MMS模型的原理和技术方案

MMS(Massively Multilingual Speech)模型是的目标是将语音技术从大约100种语言扩展到超过1000种语言。为了实现这个目标,MMS模型采用了一种新的数据集和wav2vec 2.0模型的结合。

wav2vec 2.0是Facebook AI的一个自我监督学习的先驱工作,它可以在无标签数据上进行训练。在wav2vec 2.0的帮助下,MMS模型能够利用大量的无标签音频数据进行训练。

在训练过程中,MMS模型会学习如何正确地识别和“理解”音频数据,从而能够识别出超过4000种语言,并能够以1100多种语言进行语音合成(文本转语音)。

MMS创建的语音识别和语音合成相关的数据集

在这项工作中,MetaAI创建了好几个数据,主要包括MMS-lab、MMS-lab-U以及MMS-unlab。

数据集名称数量分类覆盖的语言数量描述
MMS-lab4.47万个小时语音-文本对1107种语言语音识别与合成都可以用到
MMS-lab-U5.5万个小时音频录音1362种语言无标注语音数据集
MMS-unlab0.77万个小时音频录音3809种语言无标注数据集,用来做预训练和语言识别

这些数据集与现有的语音类的数据集比较如下:

可以看到,不论是支持的语言数量和语音数据集的时长,MetaAI的MMS相关数据集都是很有优势的。

MMS模型的实验测试结果

MMS在自动语音识别(ASR)任务测试结果

首先,在自动语音识别(ASR)任务上,MMS与OpenAI的Whisper做了对比,结果如下:

可以看到,MMS支持的语言是Whisper的11倍,但是其单词错误率只有它的一半。使用的数据集也比Whisper少很多。

MMS在语言识别( language identification (LID))任务测试结果

接下来,MetaAI训练了一个语言识别的模型,对比了业界的开源模型SpeechBrain和AmberLet:

可以看到,虽然MMS的模型效果不是最优的,但是它可识别的语言数量是其它模型的40倍。不过这也是因为在部分语言上的效果不太好拉低的。

MMS在语音合成(TTS)任务上的效果

MetaAI也在语音合成任务上做了比较

从TTS和人类话语之间的CER的微小差异可以看出,MMS系统保留了大部分原始内容。

MOS分数也表明,与人类话语相比,MMS的系统声音质量较低,但在领域内数据上的差异并不是很大。不幸的是,正如前面提到的,由于FLEURS音频中的嘈杂语音,领域外的MOS分数受到了影响。因此,MetaAI得出结论,基于MMS-lab数据训练的TTS模型在领域外表现良好。

MMS模型的开源资源

一如既往的,作为AI开源领域的优秀课代表,本次MetaAI发布的MMS模型依然是开源的。并且开源资源相当丰富,包括模型的数据集、基础模型、ASR模型、语言识别模型预训练结果都有开源。但是,开源协议为CC-BY-NC 4.0 license,不可商用!

MMS预训练模型下载地址

预训练模型的开源地址:

模型名称下载地址
MMS-300Mdownload
MMS-1Bdownload
MMS微调训练模型下载地址

微调模型的开源地址:

模型名称语言数量数据集模型下载地址支持的语言下载链接
MMS-1B:FL102102FLEURSdownloaddownload
MMS-1B:L11071107MMS-labdownloaddownload
MMS-1B-all1162MMS-lab + FLEURS
+ CV + VP + MLS
downloaddownload
MMS语言识别模型下载地址

语言识别模型的开源地址:

语言数量数据集模型字典支持的语言下载链接
126FLEURS + VL + MMS-lab-U + MMS-unlabdownloaddownloaddownload
256FLEURS + VL + MMS-lab-U + MMS-unlabdownloaddownloaddownload
512FLEURS + VL + MMS-lab-U + MMS-unlabdownloaddownloaddownload
1024FLEURS + VL + MMS-lab-U + MMS-unlabdownloaddownloaddownload
2048FLEURS + VL + MMS-lab-U + MMS-unlabdownloaddownloaddownload
4017FLEURS + VL + MMS-lab-U + MMS-unlabdownloaddownloaddownload
MMS语音合成模型下载地址

TTS的模型下载方法如下:

  1. 从https://dl.fbaipublicfiles.com/mms/tts/all-tts-languages.html 下载iso codes内容,里面包含1107中语言
  2. 找出你要识别的语言的iso代码,然后下载对应的预训练结果,每一个文件夹包含3个文件,pth预训练结果,json配置文件和vocab.txt的词汇表。下载方法如下:
# Examples:
wget https://dl.fbaipublicfiles.com/mms/tts/eng.tar.gz # English (eng)
wget https://dl.fbaipublicfiles.com/mms/tts/azj-script_latin.tar.gz # North Azerbaijani (azj-script_latin)

MMS模型总结

MetaAI发布的MMS模型优点明显,吸引力很多的关注和讨论,尽管有些人测试说结果没有他们说得好,但这也需要大家自己验证。总结一下MMS的信息:

  1. MMS模型是一个大规模多语言语音(Massively Multilingual Speech)项目,它能够识别超过4000种语言,并能够以1100多种语言进行语音合成(文本转语音)。
  2. MMS模型的创建是为了解决现有的语音识别模型只覆盖大约100种语言的问题。MMS模型通过结合wav2vec 2.0(自我监督学习的先驱工作)和一个新的数据集,这个数据集为1100多种语言提供了标签数据,为近4000种语言提供了无标签数据。
  3. MMS模型的训练数据来源于宗教文本的音频录音,例如圣经。这些文本已经被翻译成许多不同的语言,并且这些翻译的音频录音是公开可用的。
  4. MMS模型的性能超过了现有的模型,并且覆盖的语言数量是现有模型的10倍。与OpenAI的Whisper模型相比,使用MMS数据训练的模型的词错误率只有Whisper的一半,但MMS覆盖的语言数量是Whisper的11倍。
  5. MMS模型的代码和模型已经公开,以便研究社区可以在此基础上进行构建。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码
返回博客列表

相关博客

  • 智谱发布 GLM-ASR(闭源)与开源 1.5B GLM-ASR-Nano-2512:针对中文与方言场景的语音识别尝试
  • Qwen3家族新成员:阿里发布自动语音识别大模型Qwen3-ASR-Flash,中英文语音识别错误率低于GPT-4o和Gemini 2.5 Pro!
  • 三年后OpenAI再次发布自动语音识别和语音合成大模型(替换Whisper系列):不开源,仅提供API,英文错字率已经下降到2.46%
  • 在消费级显卡上微调OpenAI开源的自动语言识别模型Whisper:8GB显存即可针对你自己的数据建立ASR模型
  • 比OpenAI原始的Whisper快70倍的开源语音识别模型Whisper JAX发布!
  • 重磅!MetaAI开源4050亿参数的大语言模型Llama3.1-405B模型!多项评测结果超越GPT-4o,与Claude-3.5 Sonnet平分秋色!
  • Llama3相比较前两代的模型(Llama1和Llama2)有哪些升级?几张图简单总结Llama3的训练成本、训练时间、模型架构升级等情况
  • 开源王者!全球最强的开源大模型Llama3发布!15万亿数据集训练,最高4000亿参数,数学评测超过GPT-4,全球第二!

热门博客

  • 1Dirichlet Distribution(狄利克雷分布)与Dirichlet Process(狄利克雷过程)
  • 2回归模型中的交互项简介(Interactions in Regression)
  • 3贝塔分布(Beta Distribution)简介及其应用
  • 4矩母函数简介(Moment-generating function)
  • 5普通最小二乘法(Ordinary Least Squares,OLS)的详细推导过程
  • 6使用R语言进行K-means聚类并分析结果
  • 7深度学习技巧之Early Stopping(早停法)
  • 8手把手教你本地部署清华大学的ChatGLM-6B模型——Windows+6GB显卡本地部署