2025年的大模型训练和大模型应用与之前有什么差别?来自前OpenAI研究人员、特斯拉FSD负责人Andrej Karpathy的新洞察:RLVR代替HFRL成为重点投入工作
作为特斯拉前 AI 主管、OpenAI 创始成员,Andrej Karpathy 一直是 AI 领域最敏锐的观察者之一。他不仅擅长构建模型,更擅长从工程实践中提炼出底层的范式位移。
昨天,Karpathy 发布了《2025 LLM Year in Review》,对过去一年大模型领域发生的结构性变化进行了深度复盘。在这篇总结中,他不再纠结于具体的模型参数,而是将目光投向了推理范式的演进、Agent 的真实形态以及一种被称为“Vibe Coding”的新型开发模式。

原文并非“学术综述”,而是作者以个人视角挑选出他认为“概念上改变格局、并且有点出乎意料的范式变化(paradigm changes)”。
以下是对其核心观点的技术性重写与深度解读。
范式转移:RLVR 成为新的核心增长点,从小补丁步骤变成核心流程
在 2025 年之前,主流的大模型生产包含三个阶段: 预训练(Pretraining):用海量文本做自监督学习(典型是 next-token prediction),让模型获得语言建模、知识记忆、通用模式识别能力。通常是最“重”的阶段:数据量最大、训练步数多、算力消耗最高,也是决定模型底座能力上限的重要来源。 SFT(指令微调):用人工标注的“指令—回答”数据,把模型从“续写器”调成“会按指令办事的助手”。相比预训练更“薄”(原文用 thin/short),计算量通常小得多,属于在现有底座上做较短的微调。 RLHF(人类反馈强化学习)负责对齐:通过人类偏好打分/比较,训练一个奖励模型(reward model),再用强化学习让模型输出更符合人类偏好(更有帮助、更无害、更符合风格)。同样通常是相对“短”的阶段,算力开销比预训练小很多,但对体验影响大。
这三段式在一段时间里是“稳定且被证明有效的配方”。而 2025 年的变化是:出现了一个新的、非常吃算力的主要阶段,即基于可验证奖励的强化学习(RLVR, Reinforcement Learning from Verifiable Rewards)。
RLVR简单解释
在 2025 年,**基于可验证奖励的强化学习(RLVR, Reinforcement Learning from Verifiable Rewards)**正式成为模型训练的第三根支柱。在作者观察中成为新的事实标准(de facto new major stage)。核心差异是 奖励不是来自人类主观偏好,而是来自可自动验证的客观结果:对就是对、错就是错。
- 技术逻辑的转变:传统的 SFT 和 RLHF 本质上是“轻量微调”,且极度依赖人类的偏好数据。而 RLVR 是在数学、代码等具备“客观真理”的环境中,让模型通过自动验证的奖励信号进行大规模优化。
- “推理”的涌现:通过在可验证环境中不断试错,模型自发地学会了拆解步骤、中间计算以及回溯策略。这解释了为什么 DeepSeek R1 或 OpenAI o3 能表现出类似人类“思考”的过程——它们并非在模仿人类的思考路径,而是在寻找能够通过验证的最优策略。
- 计算重心的位移:RLVR 是一种高“能力/美元比”的训练方式。2025 年,各大实验室将原本计划用于预训练的算力大量投入到 RLVR 中。结果是,模型参数量可能没有质变,但由于增加了“推理时间(Test-time compute)”,模型的实战上限被大幅拉高。
2. 锯齿状智能:我们召唤的是“幽灵”而非“动物”
关于 AI 智能的本质,Karpathy 提出了一个极具启发性的隐喻:我们不是在进化“动物”,而是在召唤“幽灵”。
- 非生物演化逻辑:人类的神经网络是为了部落生存而进化的,但 LLM 的神经网络是为了模仿文本、获取数学奖励和在 Arena 中赢得点赞而优化的。
- 锯齿状(Jagged)表现:由于 RLVR 集中在可验证领域,LLM 的能力呈现出极度不平衡的“锯齿状”。它可能在高等数学上展现出博学家级别的天赋,却在某些常识逻辑或对抗性攻击(Jailbreak)面前表现得像个小学生。
基于这种逻辑,Karpathy 表达了对 2025 年各种 Benchmark 的极度不信任。当榜单本身成为“可验证环境”时,实验室不可避免地会针对这些特定的嵌入空间进行 RLVR 优化。刷榜已成为一种新型的艺术,而高分不再等同于 AGI。
3. 应用层的新博弈:从 Cursor 到物理终端
2025 年,LLM 应用的形态发生了两次关键分裂:
第一,应用层的“厚度”竞争。 以 Cursor 为代表的应用证明了“上下文工程”和“多调用编排(DAG)”的价值。Karpathy 认为,大模型实验室未来更倾向于培养“全能大学生”,而垂直领域的应用层则负责将这些大学生组织成专业的团队,并提供私有数据和反馈环。
第二,Agent 运行环境的“主权”移交。 Claude Code 的出现被视为 Agent 的首个说服力原型。与 OpenAI 坚持的云端容器方案不同,Claude Code 运行在用户的本地环境(localhost)。这种“AI 住在你的电脑里”的范式,比云端 Agent 更能触及开发者的真实上下文。
4. 软件开发的解构:Vibe Coding 与 UI 的重塑
Karpathy 观察到,2025 年编程的门槛已被彻底粉碎,进入了 Vibe Coding(氛围编程) 时代。
- 代码的消费品化:代码正变得免费、临时且可随手抛弃。开发者可以为了复现一个单一 Bug 而编写整个临时应用。在这种模式下,人类不再需要理解 Rust 或底层框架,只需通过自然语言维持“意图”的连贯。
- LLM GUI 的雏形:目前的对话框(Chat)本质上是 80 年代的命令行。Karpathy 认为,Google Gemini Nano 等模型展示了 LLM 交互的未来——模型不再仅仅输出文字,而是结合世界知识,直接生成图像、信息图、动画甚至 Web 应用。
总结:能力的边界与未实现的潜能
回顾 2025 年,大模型展现出一种矛盾的特质:它比预想中更聪明,同时也比预想中更笨。
Karpathy 的结论保持了极客式的冷静:模型能力本身依然是长期的决定性因素,而行业目前甚至还没挖掘出当前模型潜力的 10%。随着 RLVR 范式的成熟和推理算力比例的增加,大模型的演进路径正变得前所未有的开阔,但也更需要我们摆脱“拟人化”的思维定式,去理解那团被算力和奖励信号召唤出来的“幽灵”。
