MM

MMS

基础大模型

Massively Multilingual Speech

发布时间: 2023-05-23

模型参数(Parameters)
10.0
最高上下文长度(Context Length)
2K
是否支持中文
不支持
推理能力(Reasoning)

模型基本信息

是否支持推理过程

不支持

最高上下文输入长度

2K tokens

最长输出结果
暂无数据
模型类型

基础大模型

发布时间

2023-05-23

模型预文件大小

10.8GB

开源和体验地址

代码开源状态
预训练权重开源
-
GitHub 源码
Hugging Face
暂无开源HuggingFace地址
在线体验
暂无在线体验地址

官方介绍与博客

官方论文
DataLearnerAI博客
暂无介绍博客

API接口信息

接口速度(满分5分)
暂无数据
接口价格
输入价格:
  • 文本: 暂无数据
  • 图片: 暂无数据
  • 音频: 暂无数据
  • 视频: 暂无数据
  • Embedding: 暂无数据
输出价格:
  • 文本: 暂无数据
  • 图片: 暂无数据
  • 音频: 暂无数据
  • 视频: 暂无数据
  • Embedding: 暂无数据

输入支持的模态

文本

输入不支持

图片

输入不支持

视频

输入不支持

音频

输入不支持

Embedding(向量)

输入不支持

输出支持的模态

文本

输出不支持

图片

输出不支持

视频

输出不支持

音频

输出不支持

Embedding(向量)

输出不支持

MMS模型在各大评测榜单的评分

发布机构

Facebook AI研究实验室
Facebook AI研究实验室
查看发布机构详情

模型介绍

MMS模型的详细介绍: https://www.datalearner.com/blog/1051684857225321 


Massively Multilingual Speech简称MMS,是MetaAI发布的最新的语音模型,它可以完成自动语音识别(Auto Speech Recognition,ASR),也可以做语音合成(Text-to-Speech,TTS)。


现有的最大语音数据集最多覆盖100种语言。为了克服这一挑战,MetaAI转向了被翻译成许多不同语言的宗教文本,如圣经,这些翻译已经被广泛用于基于文本的语言翻译研究。通过这个项目,MetaAI创建了一个数据集,包含了在1100多种语言下的朗读《新约》的语音数据集,平均每种语言提供了32小时的数据。


MMS模型的一个显著特点是其覆盖的语言数量。通过使用wav2vec 2.0自我监督学习模型,MMS模型可以支持超过1100种语言的语音到文本和文本到语音转换,以及超过4000种语言的语言识别。这一点对于许多只有几百名使用者的语言来说,是非常重要的,因为对于这些语言,之前并没有语音技术的存在。


MMS比OpenAI的Whisper模型效果更好:

关注DataLearnerAI公众号

关注DataLearnerAI微信公众号,接受最新大模型资讯

DataLearnerAI WeChat