Starling-7B-LM-Beta

Model Overview

Starling-LM-7B-alpha 是一个拥有 7B 参数的开源对话式语言模型，由加州大学伯克利分校团队发布。该模型的显著特点是，它通过强化学习从人工智能反馈（RLAIF）训练而来，旨在提升模型的有用性和无害性。

该模型基于表现卓越的 Openchat 3.5。研究团队利用自行开发的奖励模型 Starling-RM-7B-alpha，并采用了 Advantage-induced Policy Alignment (APA) —— 一种在线强化学习算法，对 Openchat 3.5 进行了进一步的微调，从而开发出 Starling-LM-7B-alpha。

Starling-RM-7B-alpha 奖励模型的训练数据极其珍贵，源自一个名为 Nectar 的 183K 高质量 7 选 1 排序数据集，所有排序标签均由 GPT-4 完成评估。在创建 Nectar 时，研究团队致力于解决 GPT-4 排序中存在的位置偏差问题，通过采用随机顺序的成对比较方式，成功获得了一个低偏差的高质量数据集。

此外，Starling-RM-7B-alpha 是基于 LLaMA 2-7B 对话模型通过微调得来，使用了新提出的 K-wise 损失函数。它被认为是目前开源社区中数一数二的优质奖励模型，在 RLAIF 过程中为 APA 算法提供了关键的奖励信号。

在一系列基准测试中，Starling-LM-7B-alpha 展现了出色的性能：

在 MT-Bench 测试中，以 8.09 分的高分超越了绝大多数现有开源对话模型，仅次于 GPT-4 及其指令优化版本；
在 AlpacaEval 测试中，评估模型对话有用性的分数从初始的 88.51% 提升至 91.99%；
但在 MMLU 测试中，评估模型的一般语言理解能力时，分数为 63.9%，略低于顶尖水平。

这些结果表明，RLAIF 训练显著提升了 Starling 模型在回答问题时的有用性和无害性，但对基础能力如知识、推理、编码等的提升不够显著。

研究人员认为，通过这种利用大量高质量反馈数据的 RLAIF 方法，可以微调语言模型的风格和输出特征，但提升其基础能力较为困难。因此，未来可能需要结合 RLAIF 和监督微调的方法，以全面提高语言模型的综合能力。

值得注意的是，尽管 Starling 模型的奖励模型是基于 GPT-4 模拟偏好训练的，但过度优化 GPT-4 的偏好可能导致模型输出偏离真实人类的偏好，产生“政策目标漂移效应”。为了解决这一问题，未来工作需要更多来自人类的反馈数据，以使模型输出更贴近人类的实际期望。

除了发布 Starling-LM-7B-alpha 模型本身，项目团队还开源了训练所用的 Nectar 数据集和 Starling-RM-7B-alpha 奖励模型，呼吁开源社区共同参与，持续改进偏好数据、奖励模型和语言模型，推动大型语言模型研究的进一步发展。

总而言之，Starling-LM-7B-alpha 代表了对话式语言模型发展中的一个创新里程碑。它不仅展现了 RLAIF 训练在强化语言模型特定方面性能（例如有用性和无害性）的巨大潜力，同时也直面了如何进一步提升模型整体能力、平衡合成数据与人类反馈等挑战。通过开源社区的共同努力，我们期待未来能够开发出更加智能、实用，并且符合人类意愿的对话 AI 助理。

Starling-7B-LM-Beta

Model basics

Open source & experience

Official resources

API details

Benchmark Results

Publisher

Model Overview

DataLearner 官方微信