DataLearner 标志DataLearnerAI
最新AI资讯
大模型评测
大模型列表
大模型对比
资源中心
工具
语言中文

加载中...

DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
目录
目录
  1. 首页/
  2. 博客列表/
  3. 博客详情

AI 的下一阶段,不是更长的推理链,而是真正的行动力,大模型训练将从“推理式思考”走向“智能体式思考”——前 Qwen 负责人林俊旸(Junyang Lin)最新判断

2026/03/26 20:38:52
278 阅读
Agent设计大模型Agent

Junyang 是前 Qwen(通义千问)负责人,前段时间他的离职造成了许多人的关注。不过他并未沉寂,就在刚才,Junyang 发表了一篇关于如何训练大模型推理能力、以及未来大模型推理能力训练应该走向何方的深度讨论。文章里透露了一些关于 Qwen 训练过程中的思考和踩坑经历。原文稍有深度,在这里我们尽量用通俗易懂的语言和大家介绍一下其中的情况。

  • 先说说现在大模型发展到哪了
  • 一、"让模型学会思考",背后有多难?
  • 二、Qwen 团队曾经想做一件很难的事
  • 三、Anthropic 的克制,提供了一个有用的参照
  • 四、真正的下一步:从"会思考"到"会行动"
  • 五、训练"会行动的 AI",难在哪?
  • 六、未来不只是单个智能体,而是智能体组成的系统
  • 结语:竞争的战场正在转移

先说说现在大模型发展到哪了

如果你最近在用各类 AI 产品,可能会有一个感受:现在的 AI 越来越"能干"了,不只是聊天,还能帮你写代码、查资料、做分析,甚至自动完成一套复杂流程。

但这背后,其实经历了几个非常不同的发展阶段。

最早的 GPT-3、GPT-4 这一代,核心逻辑是"读了很多书,所以什么都懂"——依靠海量数据预训练,模型变得博学,但本质上还是"问答机器"。2023 年底到 2024 年,OpenAI 推出 o1,引入了一个新概念:让模型在回答之前先"想一想"。效果在数学、代码、逻辑题上非常显著。DeepSeek-R1 随后跟进,证明这套方法可以被复现,而且成本可以更低。

下面这张图,展示了从 GPT-4 到现在,主流模型在编程能力(SWE-bench)这个关键指标上的大致演进——这个数字越高,意味着模型能够独立解决真实世界的软件开发问题:

大模型在SWE-Bench Verified的评测增长
大模型在SWE-Bench Verified的评测增长
数据来源参考DataLearner的SWE-Bench Verified评测数据:https://www.datalearner.com/benchmarks/swe-bench-verified

这一阶段,各家 AI 公司基本都在回答同一个问题:怎么让模型"想得更好"? Junyang 认为,这个问题仍然重要,但行业的重心已经开始转移——从"怎么想得更好"走向"怎么在真实环境中边想边做"。他把前者称为"推理式思考"(reasoning thinking),后者称为"智能体式思考"(agentic thinking),并认为后者将成为接下来的主线。

一、"让模型学会思考",背后有多难?

o1 和 R1 的成功,表面上看是"让模型多想一步",但实际上是一次系统性的工程革命。

强化学习(RL)并不是新技术,但要把它用在语言模型的"思考训练"上,有一个关键前提:你得有可靠的评分标准。 数学题对不对、代码能不能跑通,这些是有标准答案的,机器可以自动判断。这也是为什么早期推理模型的突破,几乎全部发生在数学和代码领域——这两个方向的反馈信号最干净。

更关键的是,一旦走上"推理训练"这条路,整个训练基础设施都得跟上:大规模的"模拟推理过程"生成、高吞吐量的自动评分、稳定的模型更新机制……这套东西的复杂程度,不亚于重新搭一套训练系统。

Junyang 的原话是,推理模型的崛起"既是一个建模的故事,也同样是一个基础设施的故事"(as much an infra story as a modeling story)——算法和工程两条腿缺一不可,第一次重大转型就是从扩大预训练规模转向扩大推理后训练的规模。

二、Qwen 团队曾经想做一件很难的事

这里 Junyang 难得地透露了一些 Qwen 内部的决策过程。

2025 年初,Qwen 团队的目标是:把"思考模式"和"对话模式"合并进同一个模型。理想状态是,模型能自己判断——这个问题简单,直接回答;那个问题复杂,多想一会儿——用户不需要手动切换。Qwen3 是这个思路最完整的一次公开尝试,引入了"混合思考模式",支持可控的思考预算,专门设计了"思考模式融合"阶段。

但 Junyang 坦言,这件事做起来远比想象中难,核心矛盾在于数据:

做对话(instruct)的数据,追求的是简洁、高效、格式稳定,适合企业拿去批量跑客服、标注、摘要这类重复性任务。做思考(thinking)的数据则完全不同,它鼓励模型在中间过程里探索多条路径,允许走弯路再纠正,目标是最终正确率而非过程简洁。

这两种行为目标在训练数据层面是互相拉扯的。如果数据配比和质量没有精心把控,合并出来的模型很容易两头不讨好:思考模式变得啰嗦但不深入,对话模式变得拖沓但不再干脆。Junyang 也承认,Qwen 团队在平衡模型合并和提升后训练数据质量与多样性的过程中,并没有把所有事情都做对。

最终在实践中,分开做仍然有很强的吸引力。2025 年 7 月,Qwen 公开发布了 2507 更新,将 Instruct 版和 Thinking 版分拆为两条独立产品线,包括 30B 和 235B 的不同规格。Junyang 解释,这么做的一个重要原因是,大量商业客户确实需要纯粹的 instruct 模式——高吞吐、低成本、高度可控——对这些场景来说,合并并不能带来明显好处。分开反而让两个方向各自的数据和训练问题能解决得更干净。

Qwen3-235B-A22B与Qwen3-235B-A22B-Thinking 2507对比
Qwen3-235B-A22B与Qwen3-235B-A22B-Thinking 2507对比
Qwen3-235B-A22B与Qwen3-235B-A22B-Thinking 2507对比:https://www.datalearner.com/benchmark-compare/qwen3-235b-A22b-2507-thinking/Qwen3-235B-A22B-Instruct-2507

Anthropic 则坚持走另一条路:Claude 3.7 Sonnet 和 Claude 4 都是"合并"路线,用户可以手动设定思考预算,Claude 4 甚至允许思考过程中穿插工具调用。GLM-4.5、DeepSeek V3.1 后来也走了类似的混合路线。

那到底谁对谁错?Junyang 的看法是:关键不在于合不合并,而在于合并得是否"有机"。如果思考和对话只是被塞进了同一个模型、但行为上仍然像两个别扭地缝在一起的人格,用户体验依然是割裂的。真正成功的合并,应该是模型能在一个连续的"推理投入光谱"上自如调节——不是在"想"和"不想"之间硬切,而是像 GPT 的 effort 控制那样,形成一种对计算量的策略分配。

三、Anthropic 的克制,提供了一个有用的参照

Junyang 在文中对 Anthropic 的评价比较正面,但他的措辞是"有用的纠偏"(a useful corrective),态度相当克制。

他认为很多团队有一个误区:推理链越长,模型就越聪明。但 Junyang 指出,如果一个模型对所有问题都用同样冗长的方式去推理,这往往说明它不会合理分配计算资源——不知道什么该细想、什么该快速回答、什么时候该停下来动手。

Anthropic 的思路不一样。他们把思考能力跟具体任务目标绑定:如果目标是写代码,那思考就应该帮助拆解问题、规划步骤、定位错误、协调工具调用;如果目标是完成一个长流程任务,思考就应该帮助维持方向感和执行质量,而不是生成一大段好看但没用的中间推理文本。

Junyang 把这个方向概括为一句话:我们正在从"训练模型"的时代走向"训练智能体"的时代。 他在 Qwen3 的博客里也写过同样的话,并把未来 RL 的进步跟"来自环境的反馈"和"长程推理"联系在了一起。

编者补充: Junyang 原文没有展开讨论 Anthropic 的具体评测成绩,但从公开数据来看,Anthropic 的这条路线在 2025 年确实表现亮眼。Claude Opus 4.5 成为首个在 SWE-bench Verified 上突破 80% 的模型;Claude Sonnet 4.5 在 Artificial Analysis Intelligence Index 上的得分甚至超过了更贵的旧旗舰 Opus 4.1,打破了"更贵就更强"的惯例。Anthropic 发布 Opus 4.6 时,还直接引用了 OpenAI 自己 2025 年 4 月发布的 BrowseComp 基准来展示 Claude 的排名——这种"拿你的尺子量你"的操作在 AI 圈引发了不少讨论。这些成绩某种程度上印证了 Junyang 对 Anthropic 方向的认可。

四、真正的下一步:从"会思考"到"会行动"

这是整篇文章的核心论点。Junyang 认为,智能体式思考将成为主流的思考形式,并且很可能逐步取代那种过度冗长的、封闭式独白型推理——注意他用的是"may eventually",这是一个趋势判断,不是说推理式思考马上就要消失。

两者的区别是什么?

推理式思考,是模型在脑子里"打草稿":给一道题,闭门推演很久,输出一个答案。整个过程是封闭的,跟外部世界没有交互。评判标准也相对单一——最终答案对不对。

智能体式思考,是模型边做边想:遇到不知道的信息就去搜索,需要验证就执行代码,中间出错了就看错误信息、调整方案再来一遍。整个过程是开放的,跟真实环境持续交互。评判标准变成了——能不能在跟环境持续互动的过程中保持有效推进。

Junyang 在原文里列举了智能体式思考需要具体应对的几个难题:模型得判断什么时候该停下思考、开始行动;得选择调用哪个工具、按什么顺序调用;得处理来自环境的不完整甚至带噪声的观测结果;在行动失败之后得修正计划而不是卡住;还得在跨越很多轮对话和工具调用的过程中保持前后一致。这些是纯推理模型基本不需要面对的挑战。

举个直观的例子:你让 AI 帮你调研竞争对手并生成一份分析报告。在旧模式下,AI 凭训练数据里的存量知识给你写一份可能已经过时的报告。在新模式下,AI 先搜索最新信息,发现数据不够就换个关键词再搜一遍,把结果整理后写成报告,自己检查一遍逻辑,发现某个数据源有矛盾就再去交叉验证——全程不需要你介入。Claude 最新版本、OpenAI 的 Operator、Cursor 和 Devin 这类工具,都已经在朝这个方向走。

五、训练"会行动的 AI",难在哪?

训练一个只会"思考"的模型,评分系统相对简单——答案对不对,机器自动判断就行。但一旦目标变成训练一个跟环境交互的智能体,整个 RL 基础设施都得重新来过。

在传统推理 RL 里,模型的每一轮推演基本上是自包含的,有比较干净的自动评分器。但在智能体 RL 里,模型被嵌入了一个更大的系统:工具服务器、浏览器、终端、搜索引擎、代码执行沙箱、API 接口、记忆系统、调度框架……环境不再是一个静态的判卷老师,它本身就是训练系统的一部分。

Junyang 举了一个很具体的例子:假设你在训练一个编程智能体,它生成的代码需要在一个真实的测试环境里跑。推理端在等执行结果,训练端在等推理端交回完整的轨迹数据,整个流水线的 GPU 利用率远低于传统推理 RL 的预期。再加上工具调用的延迟、环境状态的不确定性,实验迭代速度会急剧下降,"还没到你想要的能力水平,实验就已经慢到做不下去了"。

还有一个更棘手的问题:奖励黑客(Reward Hacking)。当 AI 只在脑子里推理时,作弊空间有限。但一旦它能调用搜索、执行代码、访问文件,作弊的方式就多了:直接搜到答案而不是真正学会推理;利用代码仓库里的未来信息;找到测试环境的漏洞让自己"看起来"完成了任务。这有点像考试时允许带手机——你很难分清学生是真懂了还是现场查的。

Junyang 认为,下一阶段最严肃的研究瓶颈会集中在训练环境设计、评分器的鲁棒性、反作弊机制、以及策略模型与外部世界之间的接口规范上。他甚至提到,搭建高质量训练环境已经开始成为一个真正的创业方向,而不再只是研究项目的附属品。

六、未来不只是单个智能体,而是智能体组成的系统

原文最后还有一个容易被忽略但很重要的判断:Junyang 认为,智能体式思考发展到后期,核心能力将越来越多地来自多个智能体的组织方式,而非单个模型本身。

他描述的架构是这样的:一个负责规划和任务分发的"调度智能体"(orchestrator),若干个具备领域专长的"专家智能体"(specialized agents),以及执行更细碎子任务的"子智能体"(sub-agents)。这些子智能体的存在不仅是为了分工,也是为了控制上下文长度、避免信息污染、在不同层级的推理之间维持清晰的边界。

他把这个演进概括为三级跳:从训练模型,到训练智能体,再到训练由多个智能体构成的系统。

结语:竞争的战场正在转移

Junyang 最后的判断是,AI 领域的竞争逻辑正在发生根本性的变化。

过去两年的核心竞争力在于 RL 算法、反馈信号强度、训练管线的可扩展性。接下来,差距将更多来自训练环境的真实度、训练与推理系统的紧密集成、harness 工程的成熟度,以及能否让模型的决策和决策的后果形成真正的闭环。

或者用 Junyang 自己在结尾的说法:好的思考不再是"最长的或者最显眼的那一种",而是"在真实世界约束下最能推动事情往前走的那一种"。

大家也可以阅读原文获取原始内容:https://x.com/JustinLin610/status/2037116325210829168

DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码
返回博客列表

热门博客

  • 1Dirichlet Distribution(狄利克雷分布)与Dirichlet Process(狄利克雷过程)
  • 2回归模型中的交互项简介(Interactions in Regression)
  • 3贝塔分布(Beta Distribution)简介及其应用
  • 4矩母函数简介(Moment-generating function)
  • 5普通最小二乘法(Ordinary Least Squares,OLS)的详细推导过程
  • 6使用R语言进行K-means聚类并分析结果
  • 7深度学习技巧之Early Stopping(早停法)
  • 8手把手教你本地部署清华大学的ChatGLM-6B模型——Windows+6GB显卡本地部署