Meta(原FaceBook)人工智能研究院最新论文——新一代机器翻译系统
时间:2022-07-06 23:52:51.379
论文名:No Language Left Behind: Scaling Human-Centered Machine Translation
发布时间:2022年7月
论文地址:https://scontent-sjc3-1.xx.fbcdn.net/v/t39.8562-6/292295068_402295381932691_8903854229220968087_n.pdf
代码地址:https://github.com/facebookresearch/fairseq/tree/nllb
原文摘要:在消除全球范围内的语言障碍这一目标的驱动下,机器翻译已经巩固了自己作为当今人工智能研究的一个关键焦点。然而,这些努力都是围绕着一小部分语言进行的,而把绝大多数低资源的语言抛在了后面。要打破200种语言的障碍,同时确保安全、高质量的结果,并将道德因素牢记于心,这需要什么呢?在 "不落下任何一种语言 "中,我们接受了这一挑战,首先通过对母语人士的探索性访谈,将低资源语言翻译支持的需求情境化。然后,我们创建了数据集和模型,旨在缩小低资源语言和高资源语言之间的性能差距。更具体地说,我们开发了一个基于稀疏门控专家混合物的条件计算模型,该模型是在使用为低资源语言量身定做的新颖有效的数据挖掘技术获得的数据上进行训练的。我们提出了多种架构和训练方面的改进,以便在对数千项任务进行训练时抵制过度拟合。关键是,我们使用人类翻译的基准,Flores-200,评估了超过40,000个不同翻译方向的性能,并将人类评估与涵盖Flores-200中所有语言的新型毒性基准相结合,以评估翻译安全性。我们的模型相对于以前的最先进技术实现了44%的BLEU改进,为实现通用翻译系统奠定了重要基础。
Meta的人工智能研究院今天刚发布了一个最新的论文,这是关于机器翻译的一个论文。它的目标是为了提供大家可以在任意语言之间进行翻译的能力。这篇论文最大的特点是支持全世界200多种语言的翻译,对于一些使用人数很少的包括阿斯图里亚语、卢甘达语、乌尔都语等都可以支持。最重要的是这个模型是一个预训练模型,从模型到代码到数据集都是开源的。这个模型由500亿参数,十分巨大。

目前,它开放的模型如下:
Model Name | Model Type | #params | checkpoint | metrics |
---|---|---|---|---|
NLLB-200 | MoE | 54.5B | model | metrics |
NLLB-200 | Dense | 3.3B | model | metrics |
NLLB-200 | Dense | 1.3B | model | metrics |
NLLB-200-Distilled | Dense | 1.3B | model | metrics |
NLLB-200-Distilled | Dense | 600M | model | metrics |
这个模型使用的数据集包括三个:public bitext, mined bitext以及由backtranslation生成的数据集。详细信息:https://github.com/facebookresearch/fairseq/blob/nllb/examples/nllb/data/README.md

今天的机器翻译(MT)模型大多适用于中高资源的语言,而将大多数低资源的语言抛在后面。Meta人工智能研究人员正在通过三项重要的人工智能创新来解决这一问题。
- 低资源语言的自动化数据集构建
Meta通过开发出一个师生培训程序来解决这个问题,使得我们有可能:1)将LASER的语言覆盖范围扩大到200种语言;2)产生大量的数据,甚至是低资源语言。 - 200种语言的建模
Meta已经开发了一个稀疏的专家混合模型,它有一个共享的和专门的容量,所以没有太多的数据的低资源语言可以自动转到共享容量。当与更好的正则化系统相结合时,这就避免了过度拟合。此外,还通过多种类型的回译,使用自监督学习和大规模的数据增强。 - 翻译质量的评估
我们将FLORES的覆盖范围扩大了2倍,这是一个人工翻译的评估基准,现在已经覆盖了200种语言。通过自动指标和人类评估支持,我们能够广泛地量化我们的翻译质量。
无语言障碍(NLLB)是一个首创的人工智能突破性项目,其开源模型能够在200多种语言的任何一对之间直接提供高质量的翻译—包括像阿斯图里亚语、卢甘达语、乌尔都语等低资源语言。它的目的是帮助人们在任何地方与任何人沟通,而不管他们的语言偏好如何。
为了使社区能够利用和建立在NLLB之上,Meta开放了所有的评估基准(FLORES-200、NLLB-MD、Toxicity-200)、LID模型和训练代码、LASER3编码器、数据挖掘代码、MMT训练和推理代码以及我们最终的NLLB-200模型和它们的小型提炼版本,以便研究社区更容易使用和采纳。
这个代码库包含了获取数据集的说明,MMT模型的优化训练和推理代码,LASER3编码器的训练代码,以及下载和使用最终的大型NLLB-200模型和小型提炼模型的说明。除了支持超过200x200的翻译方向外,我们还在FLORES-200基准上对所有可能的翻译方向提供了可靠的模型评估。通过开放我们的代码、模型和评估,我们希望能促进更多的低资源语言研究,通过研究界的贡献,进一步提高低资源翻译的质量。
创建一个能在罕见语言中工作的翻译模型的主要挑战是,研究人员有一个小得多的数据库—在这种情况下是句子的例子—来训练这个模型,而不是像英语那样。在许多情况下,他们必须找到讲这些语言的人,帮助他们提供数据,然后检查翻译是否正确。