谷歌开源最新基于思维链（chain-of-thought，CoT）微调的大语言预训练模型Flan-T5

原文摘要：在以指令为措辞的数据集上对语言模型进行微调已被证明可以提高模型的性能和对未见任务的概括性。在本文中，我们探索了指令微调，特别关注（1）任务数量的扩展，（2）模型规模的扩展，以及（3）思维链数据的微调。我们发现，上述方面的指令微调极大地提高了各种模型类别（PaLM、T5、U-PaLM）、提示设置（零-射击、少量射击、CoT）和评估基准（MMLU、BBH、TyDiQA、MGSM、开放式生成）的性能。例如，Flan-PaLM 540B在1.8K任务上的指令调整比PALM 540B要好很多（平均+9.4%）。Flan-PaLM 540B在一些基准测试上达到了最先进的性能，例如在五次拍摄的MMLU上达到了75.2%。我们还公开发布了Flan-T5检查点，即使与PaLM 62B等大得多的模型相比，也取得了强大的几发性能。总的来说，指令微调是一种提高预训练语言模型的性能和可用性的通用方法。

上周，谷歌的AI团队提交了一个最新的基于思维链进行大模型微调的预训练模型Flan-T5。从论文的描述来看，谷歌认为思维链是目前一个非常有价值的模型微调方法。

人工智能的一个重要目标是开发能够概括到未见过的任务的模型。在自然语言处理（NLP）中，预训练的语言模型已经朝着这个目标取得了重大进展，因为它们可以执行给定的自然语言描述的任务。通过在一系列以指令为措辞的任务上对语言模型进行微调，已经取得了进一步的进展，这使得模型能够更好地响应指令，并减少了对少量样本的需求。

在本文中，作者从几个方面推进指令的微调。首先，他们研究了缩放对指令微调的影响。实验表明，指令微调确实可以随着任务的数量和模型的大小而扩展。它们各自的扩展行为表明，未来的研究应该进一步扩大任务数和模型的规模。其次，作者研究了微调对模型进行推理的能力的影响。我们的实验表明，虽然之前的指令微调方法不包括思维链，但在CoT评估上的性能严重下降，而在微调混合物中仅增加9个CoT数据集就能在所有评估上实现更好的性能。

基于这些发现，我们通过使用一个540B参数的模型来训练Flan-PaLM，将微调任务的数量增加到1.8K，并包括CoT数据。Flan-PaLM的表现优于PaLM，在几个基准上达到了新的水平。例如，Flan-PaLM改进的推理能力使其能够利用CoT和自洽性，在大规模多任务语言理解上达到75.2%。

<center>![](https://www.datalearner.com/resources/blog_images/9435431c-4293-457e-9b1e-2d46c2213244.png)</center>
<center></center>

如表1所示，这大大超过了之前的模型，并且超过了73个有竞争力的人类预测者在2022年6月做出的2024年6月的预测。与PaLM相比，Flan-PaLM的多语言能力也有所提高，比如在一次性TyDiQA上的绝对值提高了14.9%，在代表性不足的语言中的算术推理上提高了11.1%。在人类评测员的评估中，Flan-PaLM在一组具有挑战性的开放式生成问题上的表现大大优于PaLM，这表明可用性有所提高。

作者对Flan-T5模型进行了指令调整（从80M到11B）。这些检查点具有强大的zero-shot、few-shot和CoT能力，远远超过之前的公共检查点，如T5。例如，Flan-T5比基础T5有两位数的提高，甚至在一些具有挑战性的BIG-Bench任务上超过了PaLM 62B。总的来说，我们的结果强调了指令微调是如何被用来提高一系列模型、提示设置和评估任务的性能。

下图是作者用的数据集和任务：

<center>![](https://www.datalearner.com/resources/blog_images/d18b82a9-d738-4f98-909d-065a20c8399a.png)</center>
<center></center>

这篇论文发现微调任务的数量、模型的大小以及思维链数据微调都会极大提高现有模型的能力，其主要结论包括：

**指令微调的缩放曲线**
指令微调的两个关键部分--模型的大小和微调任务的数量--可以提高性能。之前的工作要么扩大模板的数量，要么扩大任务的数量，要么扩大模型的大小。我们为这两个部分绘制了缩放曲线，表明扩大模型的规模和微调任务的数量有望继续提高性能，尽管扩大任务数量的回报是递减的（尽管仍然是正的）。此外，指令微调与没有微调的模型相比，改进的幅度似乎并没有减少，这表明指令微调可能会继续对未来的模型有意义。

**CoT微调对推理能力至关重要**
虽然以前的指令微调工作表明，在非CoT任务上进行微调可以提高未见过的非CoT任务的性能，但我们发现，这实际上导致了CoT任务的性能下降。为了解决CoT性能下降的问题，我们对非CoT和CoT数据进行联合微调（第4节）。这种联合微调使CoT性能大幅提高，同时保持在非CoT任务上的性能，允许单一模型在所有评估中表现良好。之前的工作表明，CoT微调提高了微调期间被保留的任务的性能（Ling等人，2017；Cobbe等人，2021；Zelikman等人，2022；Huang等人，2022，等等），而我们表明，CoT微调一个大型模型提高了被保留的任务的性能，同时保持了非CoT任务的性能改进。

**指令微调在不同模型中具有普遍性**
通过应用一系列不同架构的模型（仅解码器，编码器-解码器）来观察指令微调的通用性。规模（T5-80M到PaLM-540B），以及预训练目标（因果LM、span corruption, and prefix LM + span corruption）。这一发现与之前的研究是一致的，这些研究证明了指令的有效性。我们表明，指令微调与其他模型适应技术结合得很好，如UL2R（Tay等人，2022b），从而形成了 我们在这项工作中训练的最强模型（Flan-U-PaLM）。

**指令微调提高了可用性**
直接使用预先训练好的检查点对非专业人员来说是个挑战，因为仅靠下一个标记预测目标训练出来的模型不知道什么时候停止生成，可能会犯错误，比如继续用户的输入而不是对其做出反应。在第6节中，我们看到在一组开放式的评价中，与PaLM的输出相比，Flan-PaLM的输出有相当好的人类评分，特别是在复杂推理、计划和解释等CoT任务中。这一结果与InstructGPT（Ouyang等人，2022）的研究结果一致，该研究表明，经过微调的模型产生的输出结果更符合人类的偏好。模型的零散可用性对于更广泛地采用不需要提示工程或需要少量示例的语言模型是很重要的。

**指令微调的计算效率相对较高**
尽管扩大语言模型的规模已被证明可以可靠地提高性能，但它需要大量的计算。因此，开发具有计算效率的技术是很重要的；这种技术可以利用现有的检查点，这不会改变模型的推理成本。指令微调以相对较少的计算量提高了模型的性能--例如，对于PaLM 540B来说，指令微调只需要0.2%的预训练计算量，但却使整个评估基准的标准化平均值提高了9.4%。此外，使用指令微调的较小的模型有时会比没有指令微调的较大的模型表现更好。作为表5的例子，Flan-PaLM 62B在TyDiQA上的表现优于PaLM 540B（58.7% vs. 52.9% EM），而Flan-T5 11B在BBH-direct上的表现优于PaLM 62B（43.7% vs. 37.5%）。

谷歌开源最新基于思维链（chain-of-thought，CoT）微调的大语言预训练模型Flan-T5

论文名：Scaling Instruction-Finetuned Language Models

发布时间：2022年10月

论文地址：https://arxiv.org/abs/2210.11416

代码地址：https://github.com/google-research/t5x/blob/main/docs/models.md#flan-t5-checkpoints