谷歌开源最新基于思维链(chain-of-thought,CoT)微调的大语言预训练模型Flan-T5

标签:大语言模型,思维链,预训练模型 时间:2022-10-23 19:12:19.459 发布者:小木

论文名:Scaling Instruction-Finetuned Language Models
发布时间:2022年10月
论文地址:https://arxiv.org/abs/2210.11416
代码地址:https://github.com/google-research/t5x/blob/main/docs/models.md#flan-t5-checkpoints

原文摘要:在以指令为措辞的数据集上对语言模型进行微调已被证明可以提高模型的性能和对未见任务的概括性。在本文中,我们探索了指令微调,特别关注(1)任务数量的扩展,(2)模型规模的扩展,以及(3)思维链数据的微调。我们发现,上述方面的指令微调极大地提高了各种模型类别(PaLM、T5、U-PaLM)、提示设置(零-射击、少量射击、CoT)和评估基准(MMLU、BBH、TyDiQA、MGSM、开放式生成)的性能。例如,Flan-PaLM 540B在1.8K任务上的指令调整比PALM 540B要好很多(平均+9.4%)。Flan-PaLM 540B在一些基准测试上达到了最先进的性能,例如在五次拍摄的MMLU上达到了75.2%。我们还公开发布了Flan-T5检查点,即使与PaLM 62B等大得多的模型相比,也取得了强大的几发性能。总的来说,指令微调是一种提高预训练语言模型的性能和可用性的通用方法。