你的MiniMax M2模型效果为什么不好?可能是用错了,官方建议正确使用Interleaved Thinking,模型效果最多可提升35%的效果
MiniMax M2发布2周后已经成为OpenRouter上模型tokens使用最多的模型之一。已经成为另一个DeepSeek现象的大模型了。然而,实际使用中,很多人反馈说模型效果并不好。而此时,官方也下场了,说当前大家使用MiniMax M2效果不好的一个很重要的原因是没有正确使用Interleaved Thinking。正确使用Interleaved thinking模式,可以让MiniMax M2模型的效果最多可以提升35%!本文我们主要简单聊聊这个Interleaved thinking。

大模型几种不同的思考模式
自从OpenAI推出推理大模型o系列之后,当前所有的大模型都几乎支持推理模式,也就是正式回答用户之前,模型会进行一段推理思考,思考结束之后给出正确的答案。
然而,思考模式也非几种不同的情况。如下图所示:

第一种是没有思考的时候,大模型消息的形式,基本上就是不同类型的消息交替出现。
有了思考模式之后(第二种),大模型在接收到用户请求的第一件事就是进行思考推理,显示给出思考过程和答案之后再进行工具调用等过程。但是,这种推理模式通常只是大模型在接受了用户请求之后做了一次性的思考,后续的工具调用过程中都没有再做思考。而MiniMaxAI官方很早就发现,这个模式问题也很多。即使最开始模型思考是对的,但是后续工具调用过程多了之后也会逐渐丢失前期正确的逻辑变得越来越差。
因此,MiniMaxAI的研究人员认为,大模型的思考应该出现在任意位置,不仅仅是开始,因此出现了第三种模式,即Interleaved thinking,交替思考模式。图三可以看到,在模型接受用户的消息之后里面进行了思考并给出了下一步的内容,然后调用了不同的工具之后每次大模型拿到工具响应之后也做一次思考,然后继续下一个步骤。这意味着,每次大模型获得工具执行结果或者获得外部响应之后都应该做一次思考。
当然,这个模式并不是MiniMax首创。早在2025年2月份,Anthropic发布Claude 3.7的时候就已经发布了Interleaved Thinking特性,当时Anthropic宣称他们首次支持了这种交替思考的模式。不过这个特性并没有在社区受到足够多的重视。而本次MiniMaxAI特地将这个特性拿出来说,并指明当前社区中大多数推理框架都会丢弃模型调用工具之后的思考内容,会降低模型的效果。
为什么交替思考(Interleaved Thinking)对MiniMax M2模型至关重要?
交替思考对于AI Agent来说是至关重要的:它意味着大模型的显式推理和工具使用之间交替进行,并在步骤之间传递这种推理过程。这个过程显著增强了长工作流程中的规划、自我纠错和可靠性。
在实践中,它将长序列、工具密集型任务转化为一个稳定的计划 → 执行 → 反思循环,减少状态漂移和重复错误,同时保持每次动作执行都是基于最新的思考结果。
交替思考还提高了可调试性:中间过程的每次推理结果使失败变得可解释和可恢复,并通过重用假设、约束和部分结论而不是在每个步骤重新推导来提高样本效率。
传统的人机交互,尤其是工具调用,更像是一系列独立的“静态快照”。用户发出指令,模型生成一个包含行动和结果的“回答”,然后交互重置,下一个指令又几乎从零开始。
保持交错思考,本质上是将AI的认知过程从一个“静态快照”转变为一条“动态的思维流”。
- 它赋予了AI“工作记忆”:就像人类在解决复杂问题时不会每秒钟清空大脑一样,AI通过保留之前的推理,建立了一个持续的工作上下文。这使它能够参考之前的想法、修正错误的理解、在已有结论上构建新思路。
- 它实现了认知的“复合增长”:每一次推理都不是孤立的,而是成为下一次思考的基石。这种“利息效应”使得智能体在长任务中越思考越聪明,而不是在原地打转或重复犯错。
没有交错思考:AI Agent可能有一个初始计划,但执行第一步后,后续步骤就与原始计划脱节,无法根据新证据进行全局调整。
不过,传递越来越长的思维链必然会增加tokens消耗和潜在的延迟。这也是这个方法最大的缺点。
当前社区对交替思考(Interleaved thinking)支持不好,间接导致了MiniMax M2的效果很差
根据社区反馈,MiniMaxAI的官方人员经常观察到在多轮交互中,未能有效保存前一轮的思考状态。其根本原因在于,广泛使用的 OpenAI Chat Completion API 不支持在后续请求中传回推理内容。尽管 Anthropic API 原生支持此功能,但社区对 Claude 之外模型的支持较少,并且许多应用在实现 Anthropic API 时也忽略了传回前一轮的思考内容。这种情况导致了对新模型的交错思考支持不佳。要完全释放MiniMax M2 的潜力,在多轮交互中保持推理过程的连续性至关重要。
在MiniMax M2 中,当你正确保留并回传前几轮的推理内容时,模型会在工具调用之间持续维护一条不断延伸的“思考主线”,其中包含:
- 当前整体任务的拆解与计划;
- 尚未验证的假设与备选路径;
- 已经得到的中间结论与关键中间变量;
- 约束条件、失败路径以及之前发现的问题。
这些累积起来,构成了模型在长流程中的“思维状态(thinking state)”。一旦你丢掉它,下面这些问题就会出现:
- 模型失去对整体任务结构的记忆,只能“就事论事”地处理局部工具结果;
- 自我纠错能力大幅减弱,容易反复犯同样的错误;
- 在浏览、搜索、编码修复这类长链路任务中,规划质量明显下降。
在公开基准上,保留 vs 丢弃思考状态的差异非常明显(下列分数为示意,来自官方评测对比):

可以看到,如果使用了交替思考,会让MiniMax M2模型的效果显著提升!
交错思考也许是近期大模型一个重要的方向
回到更长远的视角看,交错思考也许会是接下来一段时间里大模型演进的一个重要方向。
过去大家优化的是模型本身和提示词,而交错思考把重点前移到了“思维流程”:模型不再一次性给出答案,而是在「计划–行动–反思」的循环中,带着自己的推理状态往前走。这种范式,对 Agent、代码助手、检索+工具混合工作流的提升已经在多个评测里被证明是实打实的,不是“更会写长解释”那么简单。
当然,它也有清晰的代价:推理 token 带来的成本与时延上涨,更复杂的状态管理逻辑,以及一旦早期思路跑偏就可能在长链路里放大错误。但如果我们把交错思考当成一项可以按场景打开、按粒度调节的基础设施能力,而不是盲目全局套用的“新潮玩法”,那么像 MiniMax-M2 这样的模型就有机会真正从“强对话模型”走向“稳定可控的 Agent 引擎”,而这很可能就是下一代大模型应用的分水岭之一。