如何构建下一代机器翻译系统——Building Machine Translation Systems for the Next Thousand Languages
本周,谷歌的研究人员在arXiv上提交了一个非常有意思的论文,其主要目的就是分享了他们建立能够翻译一千多种语言的机器翻译系统的经验和努力。
他们主要描述了三个研究领域的成果。(i) 通过利用半监督的语言识别预训练和开发数据驱动的过滤技术,为1500多种语言建立干净的网络挖掘数据集;(ii) 通过利用100多种高资源语言的监督平行数据训练的大规模多语言模型和另外1000多种语言的单语言数据集,为服务不足的语言开发实用的MT模型;(iii) 研究这些语言的评估指标的局限性,对我们MT模型的输出进行定性分析,强调这些类型模型的几种常见错误模式。我们希望我们的工作能够为致力于为目前研究不足的语言建立MT系统的从业人员提供有用的见解,并突出研究方向,以补充大规模多语言模型在数据稀少情况下的不足。
这篇论文最大的亮点是总结了谷歌在建立机器翻译系统上的一些工程实践:包括从网络爬取数据集,对于噪音的处理以及建立语料库的一些经验和技巧。同时,针对1500多个语言的大规模翻译系统面临很多长尾语言的匮乏,考虑如何去识别缺乏训练数据的长尾语言的识别与清洗,以最终获得对应的语言数据。
此外,谷歌还公布了他们的评估方法以及一些其它技巧。总之,这篇论文最主要的贡献是从工程实践角度描述谷歌如何从底层开始一步一步收集数据,克服各种困难最终建立了一个完整的可以处理长尾语言翻译的系统。对于数据处理相关应用的架构师和开发者来说是一个非常不错的经验总结。
正文38页,加上附件有75页。
欢迎大家关注DataLearner官方微信,接受最新的AI技术推送
