RLVR:为什么 2025 年,大模型训练的重心开始发生迁移?
过去几年,大语言模型的训练路线相对稳定:更大的模型、更长的预训练、更精细的指令微调与人类反馈对齐。这套方法在很长一段时间内持续奏效,也塑造了人们对“模型能力如何提升”的基本认知。
但在 2025 年前后,一种并不算新的训练思路突然被推到台前,并开始占据越来越多的计算资源与工程关注度——基于可验证奖励的强化学习(Reinforcement Learning from Verifiable Rewards,RLVR)。

它并非一项全新的算法发明,却在这一阶段显现出与以往完全不同的战略地位。这篇文章试图从训练逻辑与工程现实的角度,解释这一变化是如何发生的。
一、RLVR 是什么:它仍然是强化学习,但奖励不再来自人类
从算法分类上看,RLVR 并不脱离强化学习的范畴。 与人们熟悉的 RLHF(Reinforcement Learning from Human Feedback)相比,二者的核心差异不在“是否使用强化学习”,而在于奖励信号的来源。
在 RLHF 中:
- 模型输出需要由人类或人类训练的奖励模型进行评价
- 奖励本质上是主观的,衡量的是“哪个更好、更符合偏好”
而在 RLVR 中:
-
奖励由程序或规则自动给出
-
判断标准是是否满足客观条件,例如:
- 数学题是否算对
- 代码是否通过测试
- 推理结果是否满足约束
只要结果是可判定的,就可以构造奖励函数,而不需要任何人类参与。
从这个意义上说,RLVR 并不是“更聪明的强化学习”,而是更客观的强化学习。
二、RLVR 与 RLHF 的根本差异:不是效果,而是“能跑多久”
如果只看短期效果,RLVR 与 RLHF 的区别并不总是显著。真正拉开差距的,是它们在可持续优化能力上的不同。
RLHF 的奖励信号来自人类偏好,这带来几个天然限制:
- 成本高,无法无限规模化
- 奖励信号容易被“迎合”
- 长时间训练容易出现退化或模式坍塌
因此在工程实践中,RLHF 往往是一个相对短暂的阶段,用于对齐风格、减少风险,而不是长期能力演化的主引擎。
RLVR 则不同。由于奖励是自动、客观、可重复计算的,它具备一个关键属性: 可以在同一任务分布上持续运行强化学习,而不会迅速耗尽信号质量。
正是这一点,使 RLVR 在计算层面第一次具备了“可以吃掉大量算力”的现实可能性。
三、一个自然的问题:既然 RLVR 这么直接,为什么以前没成为主流?
从今天回看,RLVR 似乎是一条“显而易见”的路径,但在更早阶段,它并未成为大模型训练的核心。这并非偶然。
首先,早期模型能力不足。 当模型还无法稳定完成基础语言理解时,强化学习往往只会放大噪声,而不是形成可靠策略。RLVR 对底座能力的要求,远高于表面想象。
其次,可验证任务的覆盖面有限。 在很长一段时间内,行业关注的核心问题是通用语言能力与知识覆盖,而这些领域难以构造清晰、无歧义的自动奖励。
第三,主流共识长期集中在“规模即能力”。 扩大参数规模、增加数据量,被证明是一条确定性更高的路径;相比之下,长时间强化学习的性价比并不清晰。
最后,工程与安全视角的偏好。 RLHF 更容易解释、也更符合当时“对齐优先”的产品目标,这使得它在生产系统中更受青睐。
因此,RLVR 并非被忽视的技术,而是在此前条件下缺乏成为主干训练阶段的现实基础。
四、为什么 2025 年,RLVR 突然“成立”了?
2025 年前后,几个条件几乎同时成熟。
一方面,大模型的底座能力已经足够强,能够在强化学习中稳定形成中间策略,而不是随机试探。 另一方面,数学、代码等可验证任务被证明不仅提升局部技能,还会迁移性地改善复杂问题处理能力。
在这一背景下,一些实验性结果开始显现出超出预期的现象。例如,来自 DeepSeek 的开源模型展示了这样一种情况:
在没有人类提供“推理示范”的前提下,模型在可验证奖励驱动下,自发形成了问题拆解、回溯与多路径尝试等复杂行为。
这些结果在模型与代码公开之后被更多团队复现,也促使行业重新评估 RLVR 的潜力。从工程角度看,它第一次展现出一种新的可能性: 在不显著扩大模型规模的前提下,通过更长时间的强化学习持续提升能力。
五、RLVR 带来的直观变化:为什么模型“看起来更会推理了”?
在 RLVR 中,模型并不被要求展示“漂亮的推理过程”,它只关心一件事:如何最大化最终奖励。
如果直接给出答案成功率不高,模型就会在训练过程中逐步发现更有效的策略,例如:
- 将问题拆分为多个子问题
- 显式进行中间计算
- 在失败后回溯并调整路径
这些行为对模型而言只是策略优化的结果,但对人类观察者来说,它们呈现出清晰的推理结构。这也是 2025 年模型在数学、代码等领域被普遍认为“更会思考”的重要原因之一。
需要强调的是,这种“推理感”并非人为设计,而是奖励机制长期作用下的自然产物。
六、一个更深层的变化:训练重心开始迁移
从整体训练结构看,2025 年前后的变化并不是“多了一步”,而是重心发生了迁移。
过去:
预训练(能力来源) + SFT / RLHF(对齐与修饰)
正在逐步演变为:
预训练(能力底座) + 长时间 RLVR(能力放大器)
在这种结构下,测试时计算量(thinking time)也成为新的调节维度,使能力不再只由参数规模决定。
结语
RLVR 并不是对既有范式的否定,而是一次重心调整。它让行业意识到: 在模型规模逐渐放缓的阶段,训练方式本身仍然存在尚未被充分挖掘的能力空间。
从这个角度看,2025 年的变化并不只是某一种技术的流行,而是一次关于“能力从何而来”的重新认识。
