EleutherAI、MetaAI、StabilityAI、伦敦大学等合作的最新关于大语言模型的11个应用方向和16个挑战总结：来自688篇参考文献与业界实践

前天，EleutherAI、MetaAI、StabilityAI、伦敦大学等研究人员合作提交了一个关于大语言模型（Large Language Model，LLM）的挑战和应用的论文综述，引用了688篇参考文献总结了当前LLM的主要挑战和应用方向。

这个论文并不是简单罗列论文，而是从业界实践和学术研究多方面综合性系统性地总结了当前LLM的问题，十分值得学习。本文总结一下这篇论文的核心内容。

这篇论文大方向就两个，一个是LLM的挑战，一个是LLM的应用。作者先说的LLM挑战，再说的应用，我们换个思路，先说一下LLM的11个应用方向，再说一下LLM的16个挑战。

[TOC]

LLM的11个应用方向

在LLM的应用上，作者总结了11个应用方向，并提供了LLM在每一种应用上的架构或者是挑战。总体来说，11个应用方向如下：

可以看到，这11个应用里面还包含了一些子应用方向，里面也总结了什么样的模型可以应用在这些问题上。作者主要是根据模型的几个方向来区分应用，分布是预训练阶段模型、微调模型、Prompt工程和LLM评估。

这11个应用的具体总结如下：

应用领域	主要内容	优点	挑战
聊天机器人	LLaMA、ChatGPT等模型应用于开放域对话	可以进行自然的多轮交互	维持话题连贯性,高延迟影响交互
计算生物学	序列建模,预训练蛋白语言模型	在结构预测等任务上表现优异	难以迁移到实际应用如药物设计
编程	Codex、AlphaCode等代码生成模型	可以根据说明生成代码	依赖与上下文窗口,长程依赖难以建模
创作工作	利用LLM生成长文本、剧本等	语言流畅,具创造力	限制了完整创作作品的长度
知识工作	Galactica等在科研、金融等知识领域应用	在专业知识问答上表现不错	定量推理较弱,信息易过时
法律	法律问答、案例预测等	在BAR考试多个方面接近人类水平	法律知识更新频繁
医学	回答医学问题、临床信息提取等	在医学问答数据集上取得SOTA	存在hallucination、偏见的风险
推理	数学推理、因果推理等	在部分算法推理任务上优于人类	组合推理任务表现较差
机器人	计划任务、生成代码等	结合视觉,可以完成较复杂任务	目前只能处理单模态输入
心理学	模拟人类行为,分析LLM特点等	可以更快地进行心理学实验	可能存在社会性偏见
合成数据	使用LLM生成数据集	降低标注数据集成本	合成数据可能失真

可以看出，LLM在涵盖了语言理解和生成的绝大多数任务，展现了强大的能力，但也存在一些共性的约束和挑战。比如偏见、hallucination、组合推理能力较弱等，这亦是未来的研究方向。

LLM的16个挑战

这部分内容作者共总结了16个挑战。也是LLM应用和建模中面临的巨大的问题。

挑战	简介	问题	解决方向
不可详尽的数据集	数据集大小难以逐一检查质量	近重复、测试集污染等	去重，加强数据采集规范
对分词器的依赖	分词增加计算和表示限制	语言差异、词汇表固定等	字级输入、软分词
高昂的预训练成本	随规模增长,训练成本呈指数增长	计算资源需求大	优化训练方案，模型压缩
精调开销大	精调需要占用同等训练资源	内存需求,计算需求高	高效精调，适配器方法
推理延迟高	并行度低,内存需求大	大模型部署困难	模型压缩，优化实现
有限的上下文长度	难以处理长文本	注意机制复杂度高	高效注意机制、位置编码
Prompt 脆弱性	对Prompt语法敏感	难以系统地设计	强化Prompt鲁棒性
Hallucination	生成虚假fluent文本	难以检测	检索增强、解码策略
失调行为	输出不符合预期	多样性与质量tradeoff	人类反馈，监督、RLHF
过时知识	事实知识随时间变化	难以进行局部更新	检索增强、模型编辑
评价脆弱	小变化导致METRIC剧变	难以全面评估	多样性指标，人类评价
静态评价集	评价集随能力变化过时	定义新的任务困难	程序化评价，自动生成
生成文本检测	与人类文字难以区分	难以判断真伪来源	添加水印、样式检测
难以随规模提升	某些任务随规模下降	记忆代替推理	更优训练策略
实验设计不完备	难以进行controlled ablation	试验成本高	小模型 ablation，超参迁移
结果不可复现	分布式并行训练不确定性	难以重复试验	使用确定性算法

可以看到，这些挑战的总结真的十分精辟且一阵见血。不过，尽管作者提出了一些解决方向，但依然只是一个大概方向而已~

这里提到的挑战作者都有详细的分析。例如，第二个问题是分词器的问题，具体来说有很多问题都影响LLM的效果，作者给出另一个例子：

以T5模型为例，tokenizer的训练占用了大量的计算资源，需要进行很多论的训练之后才能使用，还会让模型产生对该tokenizer的依赖，也会在多语言方面引起问题。此外，embedding的输出参数占整个模型的66%左右，影响巨大。具体来说，tokenzier引起的问题：

计算开销：需要预训练一个分词器，这增加了计算量,也让模型与特定的预训练语料集耦合。
语言依赖性：现有的分词方法更适合语料资源丰富的语言，对低资源语言的支持不够。
新词处理：分词器词表固定后,对新词的处理并不友好。
词表大小固定：分词时需要限制序列长度,这就要求词表大小固定。
信息损失：分词可能造成某些语言信息的损失,如中文中没有明确的词间隔。
可解释性低：从子词组成词的过程对人不够直观。
Glitch token：如果分词器和模型的训练语料不同,会产生训练不充分的未知子词。

这些问题限制了分词器在跨语言场景下的适用性，也给模型的表示能力带来约束。

总之,分词带来了计算和表示上的限制,是大语言模型面临的一个重要挑战。克服这一挑战,对模型的多语言适用性和表示能力都将有益。

近年来LLM训练数据集总结

这篇论文还总结了今年来用于大模型训练的数据集，也非常不错。总结如下：

数据集发布日期	数据集名称	数据集大小	数据集来源	是否公开可使用
2014	BookCorpus [684, 36]	5 GB	Novels	Yes
2019	OSCAR [399]	6.3 T	Webpages in 166 languages	Yes
2019	WebText	40 GB	Webpages	No
12.2020	CC-100 [100]	2.5 TB	Webpages in 100 Languages	Yes
12.2020	The Pile [165, 41]	825 GB	Science, Webpages, GitHub Code, Law, etc.	Yes
2020	C4 [443]	745 GB	Webpages	Yes
10.2020	mC4 [631]	?	Webpages in 101 Languages	Yes
2021	MassiveText [441]	10.5 TB	Webpages, Books, News, and Code	No
12.2021	GLaM [130]	?	Webpages, Wikipedia, Conversations, Forums, Books, News	No
01.2022	Infiniset [551]	?	Forum dialogs, C4 data, Code, Wikipedia, Webpages	No
06.2022	ROOTS [289]	1.61 TB	Webpages in 46 languages and GitHub Code in 13 languages	Yes
11.2022	The Stack [271]	6 TB	GitHub Code in 30 languages	Yes
04.2023	LLaMA [ 556] / RedPajama [98]	2.7 TB	Webpages, GitHub Code, Science, Wikipedia, Books	Yes
06.2023	RefinedWeb [415]	2.8 TB	Webpages	Yes

可以看到，这个总结几乎涵盖了当前大模型常用的数据集，也值得大家收藏。

总结

本文只是非常粗略的总结了当前LLM应用的方向和挑战。原文包含了非常详细的分析与总结，值得大家仔细研读~~

论文名：Challenges and Applications of Large Language Models