最新AI大模型咨询与技术解读——来自DataLearnerAI

如何构建下一代机器翻译系统——Building Machine Translation Systems for the Next Thousand Languages

本周，谷歌的研究人员在arXiv上提交了一个非常有意思的论文，其主要目的就是分享了他们建立能够翻译一千多种语言的机器翻译系统的经验和努力。

2022/05/12 23:15:05 阅读 834

工程实践/机器翻译系统/论文快讯

XLNet基本思想简介以及为什么它优于BERT

前几天刚刚发布的XLNet彻底火了，原因是它在20多项任务中超越了BERT。这是一个非常让人惊讶的结果。之前我们也说过，在斯坦福问答系统中，XLNet也取得了目前单模型第一的成绩（总排名第四，前三个模型都是集成模型）。

2022/05/12 22:52:33 阅读 6864

深度学习/论文快讯/预训练模型

Unifying Language Learning Paradigms——谷歌的一个模型打天下

如今，自然语言处理的预训练模型被广泛运用在各个领域。各大企业和组织都在追求各种大型的预训练模型。但是当你问我们应该使用哪一个预训练模型来解决问题的时候，通常没有统一的答案，一般来说它取决于下游的任务，也就是说需要根据任务类型来选择模型。而谷歌认为这不是一个正确的方向，因此，本周，谷歌提出了一个新的NLP预训练模型框架——Unifying Language Learning Paradigms（简称UL2）来尝试使用一个模型解决多种任务。

2022/05/12 22:50:30 阅读 2397

论文快讯/通用预训练模型

正则化和数据增强对模型的影响并不总是好的：The Effects of Regularization and Data Augmentation are Class Dependent

正则化是一种基本技术，通过限制模型的复杂性来防止过度拟合并提高泛化性能。目前的深度网络严重依赖正则化器，如数据增强（DA）或权重衰减，并采用结构风险最小化，即交叉验证，以选择最佳的正则化超参数。然而，正则化和数据增强对模型的影响也不一定总是好的。来自Meta AI研究人员最新的论文发现，正则化是否有效与类别高度相关。

2022/04/11 22:52:18 阅读 1404

论文快讯

最近一段时间深度学习大模型的重要进展（2022年4月初）

今晚已经是本周的最后一天了，最近的一些深度学习算法方面的进展做个总结吧，感觉都是挺不错的，供大家参考。

2022/04/10 23:34:55 阅读 1412

论文快讯

Google最新超大模型Pathways：一个会讲笑话的6400亿参数的语言模型

今天，Google介绍了一个新的语言模型，一个Pathways语言模型：PaLM，这是一个用Pathways系统训练的5400亿个参数、仅有dense decoder的Transformer模型，在数百个语言理解和生成任务上对PaLM进行了评估，发现它在大多数任务中实现了最先进的性能，在许多情况下都有显著的优势。

2022/04/05 11:13:04 阅读 1284

论文快讯/语言模型

大型语言模型的新扩展规律（DeepMind新论文）——Training Compute-Optimal Large Language Models

3月29日，DeepMind发表了一篇论文，"Training Compute-Optimal Large Language Models"，表明基本上每个人--OpenAI、DeepMind、微软等--都在用极不理想的计算方式训练大型语言模型。论文认为这些模型对计算的使用一直处于非常不理想的状态。并提出了新的模型缩放规律。

2022/04/04 13:14:09 阅读 2709

deepmind/论文快讯/语言模型