EleutherAI、MetaAI、StabilityAI、伦敦大学等合作的最新关于大语言模型的11个应用方向和16个挑战总结:来自688篇参考文献与业界实践
前天,EleutherAI、MetaAI、StabilityAI、伦敦大学等研究人员合作提交了一个关于大语言模型(Large Language Model,LLM)的挑战和应用的论文综述,引用了688篇参考文献总结了当前LLM的主要挑战和应用方向。

这个论文并不是简单罗列论文,而是从业界实践和学术研究多方面综合性系统性地总结了当前LLM的问题,十分值得学习。本文总结一下这篇论文的核心内容。
这篇论文大方向就两个,一个是LLM的挑战,一个是LLM的应用。作者先说的LLM挑战,再说的应用,我们换个思路,先说一下LLM的11个应用方向,再说一下LLM的16个挑战。
LLM的11个应用方向
在LLM的应用上,作者总结了11个应用方向,并提供了LLM在每一种应用上的架构或者是挑战。总体来说,11个应用方向如下:

可以看到,这11个应用里面还包含了一些子应用方向,里面也总结了什么样的模型可以应用在这些问题上。作者主要是根据模型的几个方向来区分应用,分布是预训练阶段模型、微调模型、Prompt工程和LLM评估。
这11个应用的具体总结如下:
应用领域 | 主要内容 | 优点 | 挑战 |
---|---|---|---|
聊天机器人 | LLaMA、ChatGPT等模型应用于开放域对话 | 可以进行自然的多轮交互 | 维持话题连贯性,高延迟影响交互 |
计算生物学 | 序列建模,预训练蛋白语言模型 | 在结构预测等任务上表现优异 | 难以迁移到实际应用如药物设计 |
编程 | Codex、AlphaCode等代码生成模型 | 可以根据说明生成代码 | 依赖与上下文窗口,长程依赖难以建模 |
创作工作 | 利用LLM生成长文本、剧本等 | 语言流畅,具创造力 | 限制了完整创作作品的长度 |
知识工作 | Galactica等在科研、金融等知识领域应用 | 在专业知识问答上表现不错 | 定量推理较弱,信息易过时 |
法律 | 法律问答、案例预测等 | 在BAR考试多个方面接近人类水平 | 法律知识更新频繁 |
医学 | 回答医学问题、临床信息提取等 | 在医学问答数据集上取得SOTA | 存在hallucination、偏见的风险 |
推理 | 数学推理、因果推理等 | 在部分算法推理任务上优于人类 | 组合推理任务表现较差 |
机器人 | 计划任务、生成代码等 | 结合视觉,可以完成较复杂任务 | 目前只能处理单模态输入 |
心理学 | 模拟人类行为,分析LLM特点等 | 可以更快地进行心理学实验 | 可能存在社会性偏见 |
合成数据 | 使用LLM生成数据集 | 降低标注数据集成本 | 合成数据可能失真 |
可以看出,LLM在涵盖了语言理解和生成的绝大多数任务,展现了强大的能力,但也存在一些共性的约束和挑战。比如偏见、hallucination、组合推理能力较弱等,这亦是未来的研究方向。
LLM的16个挑战
这部分内容作者共总结了16个挑战。也是LLM应用和建模中面临的巨大的问题。
挑战 | 简介 | 问题 | 解决方向 |
---|---|---|---|
不可详尽的数据集 | 数据集大小难以逐一检查质量 | 近重复、测试集污染等 | 去重,加强数据采集规范 |
对分词器的依赖 | 分词增加计算和表示限制 | 语言差异、词汇表固定等 | 字级输入、软分词 |
高昂的预训练成本 | 随规模增长,训练成本呈指数增长 | 计算资源需求大 | 优化训练方案,模型压缩 |
精调开销大 | 精调需要占用同等训练资源 | 内存需求,计算需求高 | 高效精调,适配器方法 |
推理延迟高 | 并行度低,内存需求大 | 大模型部署困难 | 模型压缩,优化实现 |
有限的上下文长度 | 难以处理长文本 | 注意机制复杂度高 | 高效注意机制、位置编码 |
Prompt 脆弱性 | 对Prompt语法敏感 | 难以系统地设计 | 强化Prompt鲁棒性 |
Hallucination | 生成虚假fluent文本 | 难以检测 | 检索增强、解码策略 |
失调行为 | 输出不符合预期 | 多样性与质量tradeoff | 人类反馈,监督、RLHF |
过时知识 | 事实知识随时间变化 | 难以进行局部更新 | 检索增强、模型编辑 |
评价脆弱 | 小变化导致METRIC剧变 | 难以全面评估 | 多样性指标,人类评价 |
静态评价集 | 评价集随能力变化过时 | 定义新的任务困难 | 程序化评价,自动生成 |
生成文本检测 | 与人类文字难以区分 | 难以判断真伪来源 | 添加水印、样式检测 |
难以随规模提升 | 某些任务随规模下降 | 记忆代替推理 | 更优训练策略 |
实验设计不完备 | 难以进行controlled ablation | 试验成本高 | 小模型 ablation,超参迁移 |
结果不可复现 | 分布式并行训练不确定性 | 难以重复试验 | 使用确定性算法 |
可以看到,这些挑战的总结真的十分精辟且一阵见血。不过,尽管作者提出了一些解决方向,但依然只是一个大概方向而已~
这里提到的挑战作者都有详细的分析。例如,第二个问题是分词器的问题,具体来说有很多问题都影响LLM的效果,作者给出另一个例子:

以T5模型为例,tokenizer的训练占用了大量的计算资源,需要进行很多论的训练之后才能使用,还会让模型产生对该tokenizer的依赖,也会在多语言方面引起问题。此外,embedding的输出参数占整个模型的66%左右,影响巨大。具体来说,tokenzier引起的问题:
- 计算开销:需要预训练一个分词器,这增加了计算量,也让模型与特定的预训练语料集耦合。
- 语言依赖性:现有的分词方法更适合语料资源丰富的语言,对低资源语言的支持不够。
- 新词处理:分词器词表固定后,对新词的处理并不友好。
- 词表大小固定:分词时需要限制序列长度,这就要求词表大小固定。
- 信息损失:分词可能造成某些语言信息的损失,如中文中没有明确的词间隔。
- 可解释性低:从子词组成词的过程对人不够直观。
- Glitch token:如果分词器和模型的训练语料不同,会产生训练不充分的未知子词。
这些问题限制了分词器在跨语言场景下的适用性,也给模型的表示能力带来约束。
总之,分词带来了计算和表示上的限制,是大语言模型面临的一个重要挑战。克服这一挑战,对模型的多语言适用性和表示能力都将有益。
近年来LLM训练数据集总结
这篇论文还总结了今年来用于大模型训练的数据集,也非常不错。总结如下:
数据集发布日期 | 数据集名称 | 数据集大小 | 数据集来源 | 是否公开可使用 |
---|---|---|---|---|
2014 | BookCorpus [684, 36] | 5 GB | Novels | Yes |
2019 | OSCAR [399] | 6.3 T | Webpages in 166 languages | Yes |
2019 | WebText | 40 GB | Webpages | No |
12.2020 | CC-100 [100] | 2.5 TB | Webpages in 100 Languages | Yes |
12.2020 | The Pile [165, 41] | 825 GB | Science, Webpages, GitHub Code, Law, etc. | Yes |
2020 | C4 [443] | 745 GB | Webpages | Yes |
10.2020 | mC4 [631] | ? | Webpages in 101 Languages | Yes |
2021 | MassiveText [441] | 10.5 TB | Webpages, Books, News, and Code | No |
12.2021 | GLaM [130] | ? | Webpages, Wikipedia, Conversations, Forums, Books, News | No |
01.2022 | Infiniset [551] | ? | Forum dialogs, C4 data, Code, Wikipedia, Webpages | No |
06.2022 | ROOTS [289] | 1.61 TB | Webpages in 46 languages and GitHub Code in 13 languages | Yes |
11.2022 | The Stack [271] | 6 TB | GitHub Code in 30 languages | Yes |
04.2023 | LLaMA [ 556] / RedPajama [98] | 2.7 TB | Webpages, GitHub Code, Science, Wikipedia, Books | Yes |
06.2023 | RefinedWeb [415] | 2.8 TB | Webpages | Yes |
可以看到,这个总结几乎涵盖了当前大模型常用的数据集,也值得大家收藏。
总结
本文只是非常粗略的总结了当前LLM应用的方向和挑战。原文包含了非常详细的分析与总结,值得大家仔细研读~~
论文名:Challenges and Applications of Large Language Models
欢迎大家关注DataLearner官方微信,接受最新的AI技术推送
