抛弃RLHF?MetaAI发布最新大语言模型训练方法:LIMA——仅使用Prompts-Response来微调大模型
MetaAI最近公布了一个新的大语言模型预训练方法(LIMA: Less Is More for Alignment)。它最大的特点是不使用ChatGPT那样的(Reinforcement Learning from Human Feedback,RLHF)方法进行对齐训练。而是利用1000个精选的prompts与response来对模型进行微调,但却表现出了极其强大的性能。能够从训练数据中的少数几个示例中学习遵循特定的响应格式,包括从规划旅行行程到推测关于交替历史的复杂查询。

LIMA方法最主要的几个突破总结如下:
- 不使用RLHF(强化学习和人类反馈),仅使用精心挑选的prompts-response数据
- 对未出现在训练数据中的任务有良好的泛化能力
- 在43%的情况下,LIMA的响应等同于或优于GPT-4,与Bard和davinci003比较,这一比例甚至更高

