标签

「RLVR」相关文章

汇总「RLVR」相关的原创 AI 技术文章与大模型实践笔记，持续更新。

标签:#RLVR

2025年的大模型训练和大模型应用与之前有什么差别？来自前OpenAI研究人员、特斯拉FSD负责人Andrej Karpathy的年度总结：2025年6个大模型不一样的地方

昨天，Karpathy 发布了《2025 LLM Year in Review》，对过去一年大模型领域发生的结构性变化进行了深度复盘。在这篇总结中，他不再纠结于具体的模型参数，而是将目光投向了推理范式的演进、Agent 的真实形态以及一种被称为“Vibe Coding”的新型开发模式。

2025/12/21 21:10:171,120

#RLHF #RLVR

基于可验证奖励的强化学习（Reinforcement Learning with Verifiable Rewards, RLVR）的介绍：为什么 2025 年，大模型训练的重心开始发生迁移？

过去几年，大语言模型的训练路线相对稳定：更大的模型、更长的预训练、更精细的指令微调与人类反馈对齐。这套方法在很长一段时间内持续奏效，也塑造了人们对“模型能力如何提升”的基本认知。但在 2025 年前后，一种并不算新的训练思路突然被推到台前，并开始占据越来越多的计算资源与工程关注度，这就是**基于可验证奖励的强化学习（Reinforcement Learning from Verifiable Rewards，RLVR）**。

2025/12/21 15:14:291,432

#RLHF #RLVR