Moonshot AI 发布 Kimi K2 Thinking:连续执行200-300次顺序工具调用,人类最后难题评测得分超过所有模型,全球第一!依然免费开源商用!

就在今日,Moonshot AI 正式推出 Kimi K2 Thinking,这款开源思考代理模型以其革命性的工具集成和长程推理能力,瞬间点燃了开发者社区的热情。

Kimi K2能自主执行200-300次连续工具调用,跨越数百步推理,解决PhD级数学难题或实时网络谜题。本次发布的Kimi K2 Thinking版本的模型在各个评测基准上表现也十分亮眼,击败了许多闭源的模型,甚至成为人类最后难题(HLE)得分上首个突破50分的模型!


[TOC]

Kimi K2 Thinking模型的目标:解决AI Agent超长运行的问题

Kimi 系列自推出以来,一直以高效的中文理解和多模态能力著称,但早期版本在长程代理任务上仍面临瓶颈:工具调用易中断,推理链条过短,导致在动态环境中如网络搜索或代码调试时,准确率往往徘徊在30%-40%。这些不足源于传统Transformer架构对上下文长度的限制,以及缺乏内置的“自省”机制——模型难以在数百步内保持连贯性。

Kimi K2 Thinking模型的目标就是试图解决这类问题。它可以通过动态扩展思考tokens(thinking tokens)和工具调用深度,解决了“长尾推理”问题。简单来说,以往模型在处理多步代理时,容易因内存溢出注意力分散而崩盘,而 K2 Thinking 则能平稳运行高达 256K 上下文窗口,支持连续200-300步工具交互。注意,256K上下文在最顶尖的模型中并不算突出,但是官方强调的是在很长的调用过程和推理链条中,它可以平稳运行!Kimi K2 Thinking 已经从一个“静态应答器”进化成了一个“动态问题解决引擎”

Kimi K2 Thinking的三个特点

根据官方的描述,Kimi K2 Thinking模型有三个核心特点:

善于长程规划(long-horizon planning)

所谓的“长程规划(long-horizon planning)”是指模型在开始时或关键节点,会对最终目标进行任务分解和规划。它不是走一步看一步,而是能够构思一个多阶段的解决方案。

官方强调的long-horizon是想表达Kimi K2 Thinking在解决复杂任务中,对于需要很多步骤推理能力的任务的提升。当前的主流模型也都针对任务规划做了很多优化,然而,很多现实的任务需要的不仅仅是几个步骤的分解,可能涉及的是几十个甚至上百个步骤的规划和思考。

Kimi K2 Thinking的自适应推理

官方强调的 Kimi K2 Thinking 的第二个能力是指它的自适应推理。也就是说,AI Agent在运行过程中,是不确定性。当某些任务遭遇意外(如搜索不到预期信息、代码运行报错)时,模型能动态调整其策略和假设,而不是僵化地失败。

Kimi K2 Thinking支持动态循环思考

这个方式有点类似于前面MiniMax M2的交错思考(Interleaved Thinking)了,也就是说模型在获得工具响应或者每一个步骤的结果的时候也可以进行思考,重新调整策略,保持记忆,而不是顺序机械的执行。

这是当前AI Agent的“心脏”,描绘了一个高度拟人化的认知循环。也就是说每一次操作后,模型都要针对当前的结果和状态进行思考,修正下一次结果。值得注意的是,这个循环是 “思考主导”“非固定顺序” 的。

每一个步骤都进行思考不仅是生成答案,更是为了修正和延续。交错思考的模式使得模型懂得“怀疑”和“求证”,利用工具去证实或证伪自己的猜想,这极大地减少了“幻觉”。也可以让AI Agent在解决任务过程中不断修正此前的假设、验证结果,并最终达到准确的答案。

基准碾压前沿模型:K2 Thinking 在多项评测基准上超过闭源模型

Kimi K2 Thinking在评估推理、编程和代理能力的多个权威基准测试中创造了新纪录,几乎刷新了多个开源模型的记录,甚至在很多评测上击败了闭源的GPT-5、Grok等模型。

以人类最后的难题(Humanity’s Last Exam (HLE)) 为例——这项覆盖100+学科的专家级闭卷考试,被誉为“人类最后考试”,K2 Thinking 在工具增强模式下斩获 44.9% 的得分,较 GPT-5 的41.7% 和 Grok-4 的41.0% 领先3-4个百分点。

如果允许Kimik K2 Thinking使用更多的推理tokens,它的得分甚至达到了51分,是全球第一个超过50分的模型!

大模型在HLE的得分排行榜

数据来源:https://www.datalearner.com/benchmarks/hle

在AI Agent得分也是类似,BrowseComp 是一个模拟真实网络浏览难题(如挖掘隐秘信息)评测基准,K2 Thinking 以 60.2% 的成绩远超人类基线29.2%,并甩开 Claude Sonnet 4.5 的24.1% 达36个百分点。该测试基于4次独立运行(avg@4),使用 o3-mini 作为裁判,确保客观性。在中文变体 BrowseComp-ZH 上,它同样拿下62.3%,领先 DeepSeek-V3.2 的47.9% 约14%,这得益于其动态上下文管理策略:当累积输入超256K时,自动隐藏历史工具输出,避免信息过载。

编码领域同样亮眼,在SWE-Bench Verified——一项验证真实软件修复的严苛基准上——K2 Thinking 达到 71.3%,接近 GPT-5 的74.9%。

总之,在不同的评测数据上,Kimi K2 Thinking都展示了强大的竞争力。开源模型和闭源模型的差距在缩小。

Kimi K2 Thinking依然免费商用授权

Kimi K2 Thinking依然采用开源模式发布,免费商用授权。官方也提供了API接口,其价格也十分靠谱。输入价格是100万tokens只有0.6美元,输出价格为100万tokens要2.5美元,几乎和GPT-5 Mini的价格一样!

关于Kimi K2 Thinking的更多信息、评测结果和开源地址参考DataLearnerAI的大模型信息卡:https://www.datalearner.com/ai-models/pretrained-models/kimi-k2-reasoning

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码