MM

MMS

Massively Multilingual Speech

发布时间: 2023-05-23508
模型参数
10.0亿
上下文长度
2K
中文支持
不支持
推理能力

模型基本信息

推理过程
不支持
上下文长度
2K tokens
最大输出长度
暂无数据
模型类型
暂无数据
发布时间
2023-05-23
模型文件大小
10.8GB
MoE架构
总参数 / 激活参数
10.0 亿 / 不涉及
知识截止
暂无数据
推理模式
暂无模式数据

开源和体验地址

代码开源状态
暂无数据
预训练权重开源
暂无数据
Hugging Face
暂无开源HuggingFace地址
在线体验
暂无在线体验地址

官方介绍与博客

DataLearnerAI博客
暂无介绍博客

API接口信息

接口速度
暂无数据
暂无公开的 API 定价信息。

评测得分

当前尚无可展示的评测数据。

发布机构

Facebook AI研究实验室
查看发布机构详情

模型解读

MMS模型的详细介绍: https://www.datalearner.com/blog/1051684857225321 


Massively Multilingual Speech简称MMS,是MetaAI发布的最新的语音模型,它可以完成自动语音识别(Auto Speech Recognition,ASR),也可以做语音合成(Text-to-Speech,TTS)。


现有的最大语音数据集最多覆盖100种语言。为了克服这一挑战,MetaAI转向了被翻译成许多不同语言的宗教文本,如圣经,这些翻译已经被广泛用于基于文本的语言翻译研究。通过这个项目,MetaAI创建了一个数据集,包含了在1100多种语言下的朗读《新约》的语音数据集,平均每种语言提供了32小时的数据。


MMS模型的一个显著特点是其覆盖的语言数量。通过使用wav2vec 2.0自我监督学习模型,MMS模型可以支持超过1100种语言的语音到文本和文本到语音转换,以及超过4000种语言的语言识别。这一点对于许多只有几百名使用者的语言来说,是非常重要的,因为对于这些语言,之前并没有语音技术的存在。


MMS比OpenAI的Whisper模型效果更好:

DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码