Meta(原FaceBook)人工智能研究院最新论文——新一代机器翻译系统

标签:机器翻译,预训练模型 时间:2022-07-06 23:52:51.379 发布者:小木

论文名:No Language Left Behind: Scaling Human-Centered Machine Translation
发布时间:2022年7月
论文地址:https://scontent-sjc3-1.xx.fbcdn.net/v/t39.8562-6/292295068_402295381932691_8903854229220968087_n.pdf
代码地址:https://github.com/facebookresearch/fairseq/tree/nllb

原文摘要:在消除全球范围内的语言障碍这一目标的驱动下,机器翻译已经巩固了自己作为当今人工智能研究的一个关键焦点。然而,这些努力都是围绕着一小部分语言进行的,而把绝大多数低资源的语言抛在了后面。要打破200种语言的障碍,同时确保安全、高质量的结果,并将道德因素牢记于心,这需要什么呢?在 "不落下任何一种语言 "中,我们接受了这一挑战,首先通过对母语人士的探索性访谈,将低资源语言翻译支持的需求情境化。然后,我们创建了数据集和模型,旨在缩小低资源语言和高资源语言之间的性能差距。更具体地说,我们开发了一个基于稀疏门控专家混合物的条件计算模型,该模型是在使用为低资源语言量身定做的新颖有效的数据挖掘技术获得的数据上进行训练的。我们提出了多种架构和训练方面的改进,以便在对数千项任务进行训练时抵制过度拟合。关键是,我们使用人类翻译的基准,Flores-200,评估了超过40,000个不同翻译方向的性能,并将人类评估与涵盖Flores-200中所有语言的新型毒性基准相结合,以评估翻译安全性。我们的模型相对于以前的最先进技术实现了44%的BLEU改进,为实现通用翻译系统奠定了重要基础。

Meta的人工智能研究院今天刚发布了一个最新的论文,这是关于机器翻译的一个论文。它的目标是为了提供大家可以在任意语言之间进行翻译的能力。这篇论文最大的特点是支持全世界200多种语言的翻译,对于一些使用人数很少的包括阿斯图里亚语、卢甘达语、乌尔都语等都可以支持。最重要的是这个模型是一个预训练模型,从模型到代码到数据集都是开源的。这个模型由500亿参数,十分巨大。


目前,它开放的模型如下:

Model Name Model Type #params checkpoint metrics
NLLB-200 MoE 54.5B model metrics
NLLB-200 Dense 3.3B model metrics
NLLB-200 Dense 1.3B model metrics
NLLB-200-Distilled Dense 1.3B model metrics
NLLB-200-Distilled Dense 600M model metrics

这个模型使用的数据集包括三个:public bitext, mined bitext以及由backtranslation生成的数据集。详细信息:https://github.com/facebookresearch/fairseq/blob/nllb/examples/nllb/data/README.md


今天的机器翻译(MT)模型大多适用于中高资源的语言,而将大多数低资源的语言抛在后面。Meta人工智能研究人员正在通过三项重要的人工智能创新来解决这一问题。

无语言障碍(NLLB)是一个首创的人工智能突破性项目,其开源模型能够在200多种语言的任何一对之间直接提供高质量的翻译—包括像阿斯图里亚语、卢甘达语、乌尔都语等低资源语言。它的目的是帮助人们在任何地方与任何人沟通,而不管他们的语言偏好如何。

为了使社区能够利用和建立在NLLB之上,Meta开放了所有的评估基准(FLORES-200、NLLB-MD、Toxicity-200)、LID模型和训练代码、LASER3编码器、数据挖掘代码、MMT训练和推理代码以及我们最终的NLLB-200模型和它们的小型提炼版本,以便研究社区更容易使用和采纳。

这个代码库包含了获取数据集的说明,MMT模型的优化训练和推理代码,LASER3编码器的训练代码,以及下载和使用最终的大型NLLB-200模型和小型提炼模型的说明。除了支持超过200x200的翻译方向外,我们还在FLORES-200基准上对所有可能的翻译方向提供了可靠的模型评估。通过开放我们的代码、模型和评估,我们希望能促进更多的低资源语言研究,通过研究界的贡献,进一步提高低资源翻译的质量。

创建一个能在罕见语言中工作的翻译模型的主要挑战是,研究人员有一个小得多的数据库—在这种情况下是句子的例子—来训练这个模型,而不是像英语那样。在许多情况下,他们必须找到讲这些语言的人,帮助他们提供数据,然后检查翻译是否正确。

Back to Top