EleutherAI、MetaAI、StabilityAI、伦敦大学等合作的最新关于大语言模型的11个应用方向和16个挑战总结:来自688篇参考文献与业界实践

744 阅读

前天,EleutherAI、MetaAI、StabilityAI、伦敦大学等研究人员合作提交了一个关于大语言模型(Large Language Model,LLM)的挑战和应用的论文综述,引用了688篇参考文献总结了当前LLM的主要挑战和应用方向。

这个论文并不是简单罗列论文,而是从业界实践和学术研究多方面综合性系统性地总结了当前LLM的问题,十分值得学习。本文总结一下这篇论文的核心内容。

这篇论文大方向就两个,一个是LLM的挑战,一个是LLM的应用。作者先说的LLM挑战,再说的应用,我们换个思路,先说一下LLM的11个应用方向,再说一下LLM的16个挑战。

LLM的11个应用方向

在LLM的应用上,作者总结了11个应用方向,并提供了LLM在每一种应用上的架构或者是挑战。总体来说,11个应用方向如下:

可以看到,这11个应用里面还包含了一些子应用方向,里面也总结了什么样的模型可以应用在这些问题上。作者主要是根据模型的几个方向来区分应用,分布是预训练阶段模型、微调模型、Prompt工程和LLM评估。

这11个应用的具体总结如下:

应用领域主要内容优点挑战
聊天机器人LLaMA、ChatGPT等模型应用于开放域对话可以进行自然的多轮交互维持话题连贯性,高延迟影响交互
计算生物学序列建模,预训练蛋白语言模型在结构预测等任务上表现优异难以迁移到实际应用如药物设计
编程Codex、AlphaCode等代码生成模型可以根据说明生成代码依赖与上下文窗口,长程依赖难以建模
创作工作利用LLM生成长文本、剧本等语言流畅,具创造力限制了完整创作作品的长度
知识工作Galactica等在科研、金融等知识领域应用在专业知识问答上表现不错定量推理较弱,信息易过时
法律法律问答、案例预测等在BAR考试多个方面接近人类水平法律知识更新频繁
医学回答医学问题、临床信息提取等在医学问答数据集上取得SOTA存在hallucination、偏见的风险
推理数学推理、因果推理等在部分算法推理任务上优于人类组合推理任务表现较差
机器人计划任务、生成代码等结合视觉,可以完成较复杂任务目前只能处理单模态输入
心理学模拟人类行为,分析LLM特点等可以更快地进行心理学实验可能存在社会性偏见
合成数据使用LLM生成数据集降低标注数据集成本合成数据可能失真

可以看出,LLM在涵盖了语言理解和生成的绝大多数任务,展现了强大的能力,但也存在一些共性的约束和挑战。比如偏见、hallucination、组合推理能力较弱等,这亦是未来的研究方向。

LLM的16个挑战

这部分内容作者共总结了16个挑战。也是LLM应用和建模中面临的巨大的问题。

挑战简介问题解决方向
不可详尽的数据集数据集大小难以逐一检查质量近重复、测试集污染等去重,加强数据采集规范
对分词器的依赖分词增加计算和表示限制语言差异、词汇表固定等字级输入、软分词
高昂的预训练成本随规模增长,训练成本呈指数增长计算资源需求大优化训练方案,模型压缩
精调开销大精调需要占用同等训练资源内存需求,计算需求高高效精调,适配器方法
推理延迟高并行度低,内存需求大大模型部署困难模型压缩,优化实现
有限的上下文长度难以处理长文本注意机制复杂度高高效注意机制、位置编码
Prompt 脆弱性对Prompt语法敏感难以系统地设计强化Prompt鲁棒性
Hallucination生成虚假fluent文本难以检测检索增强、解码策略
失调行为输出不符合预期多样性与质量tradeoff人类反馈,监督、RLHF
过时知识事实知识随时间变化难以进行局部更新检索增强、模型编辑
评价脆弱小变化导致METRIC剧变难以全面评估多样性指标,人类评价
静态评价集评价集随能力变化过时定义新的任务困难程序化评价,自动生成
生成文本检测与人类文字难以区分难以判断真伪来源添加水印、样式检测
难以随规模提升某些任务随规模下降记忆代替推理更优训练策略
实验设计不完备难以进行controlled ablation试验成本高小模型 ablation,超参迁移
结果不可复现分布式并行训练不确定性难以重复试验使用确定性算法

可以看到,这些挑战的总结真的十分精辟且一阵见血。不过,尽管作者提出了一些解决方向,但依然只是一个大概方向而已~

这里提到的挑战作者都有详细的分析。例如,第二个问题是分词器的问题,具体来说有很多问题都影响LLM的效果,作者给出另一个例子:

以T5模型为例,tokenizer的训练占用了大量的计算资源,需要进行很多论的训练之后才能使用,还会让模型产生对该tokenizer的依赖,也会在多语言方面引起问题。此外,embedding的输出参数占整个模型的66%左右,影响巨大。具体来说,tokenzier引起的问题:

  1. 计算开销:需要预训练一个分词器,这增加了计算量,也让模型与特定的预训练语料集耦合。
  2. 语言依赖性:现有的分词方法更适合语料资源丰富的语言,对低资源语言的支持不够。
  3. 新词处理:分词器词表固定后,对新词的处理并不友好。
  4. 词表大小固定:分词时需要限制序列长度,这就要求词表大小固定。
  5. 信息损失:分词可能造成某些语言信息的损失,如中文中没有明确的词间隔。
  6. 可解释性低:从子词组成词的过程对人不够直观。
  7. Glitch token:如果分词器和模型的训练语料不同,会产生训练不充分的未知子词。

这些问题限制了分词器在跨语言场景下的适用性,也给模型的表示能力带来约束。

总之,分词带来了计算和表示上的限制,是大语言模型面临的一个重要挑战。克服这一挑战,对模型的多语言适用性和表示能力都将有益。

近年来LLM训练数据集总结

这篇论文还总结了今年来用于大模型训练的数据集,也非常不错。总结如下:

数据集发布日期数据集名称数据集大小数据集来源是否公开可使用
2014BookCorpus [684, 36]5 GBNovelsYes
2019OSCAR [399]6.3 TWebpages in 166 languagesYes
2019WebText40 GBWebpagesNo
12.2020CC-100 [100]2.5 TBWebpages in 100 LanguagesYes
12.2020The Pile [165, 41]825 GBScience, Webpages, GitHub Code, Law, etc.Yes
2020C4 [443]745 GBWebpagesYes
10.2020mC4 [631]?Webpages in 101 LanguagesYes
2021MassiveText [441]10.5 TBWebpages, Books, News, and CodeNo
12.2021GLaM [130]?Webpages, Wikipedia, Conversations, Forums, Books, NewsNo
01.2022Infiniset [551]?Forum dialogs, C4 data, Code, Wikipedia, WebpagesNo
06.2022ROOTS [289]1.61 TBWebpages in 46 languages and GitHub Code in 13 languagesYes
11.2022The Stack [271]6 TBGitHub Code in 30 languagesYes
04.2023LLaMA [ 556] / RedPajama [98]2.7 TBWebpages, GitHub Code, Science, Wikipedia, BooksYes
06.2023RefinedWeb [415]2.8 TBWebpagesYes

可以看到,这个总结几乎涵盖了当前大模型常用的数据集,也值得大家收藏。

总结

本文只是非常粗略的总结了当前LLM应用的方向和挑战。原文包含了非常详细的分析与总结,值得大家仔细研读~~

论文名:Challenges and Applications of Large Language Models

DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码