基于可验证奖励的强化学习（Reinforcement Learning with Verifiable Rewards, RLVR）的介绍：为什么 2025 年，大模型训练的重心开始发生迁移？

过去几年，大语言模型的训练路线相对稳定：更大的模型、更长的预训练、更精细的指令微调与人类反馈对齐。这套方法在很长一段时间内持续奏效，也塑造了人们对“模型能力如何提升”的基本认知。

但在 2025 年前后，一种并不算新的训练思路突然被推到台前，并开始占据越来越多的计算资源与工程关注度，这就是基于可验证奖励的强化学习（Reinforcement Learning from Verifiable Rewards，RLVR）。

它并非一项全新的算法发明，却在这一阶段显现出与以往完全不同的战略地位。这篇文章试图从训练逻辑与工程现实的角度，解释这一变化是如何发生的。

一、RLVR 是什么：它仍然是强化学习，但奖励不再来自人类