Starling-7B-LM-Beta
Starling-7B-LM-Beta is an AI model published by Nexusflow, released on 2024-03-19, for 基础大模型, with 70.0B parameters, and 4K tokens context length, requiring about 14.58GB storage, under the Apache 2.0 license.
Data sourced primarily from official releases (GitHub, Hugging Face, papers), then benchmark leaderboards, then third-party evaluators. Learn about our data methodology
Starling-LM-7B-alpha 是一个拥有 7B 参数的开源对话式语言模型,由加州大学伯克利分校团队发布。该模型的显著特点是,它通过强化学习从人工智能反馈(RLAIF)训练而来,旨在提升模型的有用性和无害性。
该模型基于表现卓越的 Openchat 3.5。研究团队利用自行开发的奖励模型 Starling-RM-7B-alpha,并采用了 Advantage-induced Policy Alignment (APA) —— 一种在线强化学习算法,对 Openchat 3.5 进行了进一步的微调,从而开发出 Starling-LM-7B-alpha。
Starling-RM-7B-alpha 奖励模型的训练数据极其珍贵,源自一个名为 Nectar 的 183K 高质量 7 选 1 排序数据集,所有排序标签均由 GPT-4 完成评估。在创建 Nectar 时,研究团队致力于解决 GPT-4 排序中存在的位置偏差问题,通过采用随机顺序的成对比较方式,成功获得了一个低偏差的高质量数据集。
此外,Starling-RM-7B-alpha 是基于 LLaMA 2-7B 对话模型通过微调得来,使用了新提出的 K-wise 损失函数。它被认为是目前开源社区中数一数二的优质奖励模型,在 RLAIF 过程中为 APA 算法提供了关键的奖励信号。
在一系列基准测试中,Starling-LM-7B-alpha 展现了出色的性能:

这些结果表明,RLAIF 训练显著提升了 Starling 模型在回答问题时的有用性和无害性,但对基础能力如知识、推理、编码等的提升不够显著。
研究人员认为,通过这种利用大量高质量反馈数据的 RLAIF 方法,可以微调语言模型的风格和输出特征,但提升其基础能力较为困难。因此,未来可能需要结合 RLAIF 和监督微调的方法,以全面提高语言模型的综合能力。
值得注意的是,尽管 Starling 模型的奖励模型是基于 GPT-4 模拟偏好训练的,但过度优化 GPT-4 的偏好可能导致模型输出偏离真实人类的偏好,产生“政策目标漂移效应”。为了解决这一问题,未来工作需要更多来自人类的反馈数据,以使模型输出更贴近人类的实际期望。
除了发布 Starling-LM-7B-alpha 模型本身,项目团队还开源了训练所用的 Nectar 数据集和 Starling-RM-7B-alpha 奖励模型,呼吁开源社区共同参与,持续改进偏好数据、奖励模型和语言模型,推动大型语言模型研究的进一步发展。
总而言之,Starling-LM-7B-alpha 代表了对话式语言模型发展中的一个创新里程碑。它不仅展现了 RLAIF 训练在强化语言模型特定方面性能(例如有用性和无害性)的巨大潜力,同时也直面了如何进一步提升模型整体能力、平衡合成数据与人类反馈等挑战。通过开源社区的共同努力,我们期待未来能够开发出更加智能、实用,并且符合人类意愿的对话 AI 助理。
欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送
