Kimi K2.6vsKimi K2.5

在 12 个共同 benchmark 中，Kimi K2.6 整体领先：Kimi K2.6 领先 11 项，Kimi K2.5 领先 1 项，持平 0 项，平均分差 +6.27。

Moonshot AI · 2026-04-20 · 推理大模型

Moonshot AI · 2026-01-27 · 多模态大模型

Kimi K2.611 项(92%)(8%)1 项Kimi K2.5

评测分数

按能力类目分组，每组内按分差大小排列；共 12 项。

Kimi K2.6 领先 4/4

评测项	Kimi K2.6	Kimi K2.5	分差
SWE-Bench Pro - Public	58.6013 / 54Thinking (With Tools)	50.7041 / 54Thinking (With Tools)	+7.90
LiveCodeBench	89.607 / 123Thinking (No Tools)	8516 / 123Thinking (No Tools)	+4.60
SWE-bench Multilingual	76.705 / 23Thinking (With Tools)	7313 / 23Thinking (No Tools)	+3.70
SWE-bench Verified	80.2014 / 112Thinking (With Tools)	76.8030 / 112Thinking (With Tools)	+3.40

Kimi K2.6 领先 3/3

评测项	Kimi K2.6	Kimi K2.5	分差
HLE	5415 / 172Thinking (With Tools + Internet)	50.2027 / 172Thinking (With Tools)	+3.80
LiveBench	72.1728 / 115Thinking (No Tools)	69.0742 / 115Thinking (No Tools)	+3.10
GPQA Diamond	90.5018 / 187Thinking (No Tools)	87.6037 / 187Thinking (No Tools)	+2.90

Kimi K2.6 领先 2/2

评测项	Kimi K2.6	Kimi K2.5	分差
IMO-AnswerBench	868 / 21Thinking (No Tools)	81.8016 / 21Thinking (No Tools)	+4.20
AIME 2026	96.403 / 18Thinking (No Tools)	92.5012 / 18Thinking (No Tools)	+3.90

Kimi K2.6 领先 1/1

评测项	Kimi K2.6	Kimi K2.5	分差
BrowseComp	83.2014 / 53Thinking (With Tools + Internet)	60.6036 / 53Thinking (With Tools + Internet)	+22.60

Kimi K2.6 领先 1/1

评测项	Kimi K2.6	Kimi K2.5	分差
Terminal Bench 2.0	66.7010 / 47Thinking (With Tools)	50.8034 / 47Thinking (With Tools)	+15.90

Kimi K2.5 领先 1/1

评测项	Kimi K2.6	Kimi K2.5	分差
Claw Bench	80.9019 / 29Thinking (With Tools)	81.7018 / 29Thinking (With Tools)	-0.80

价格优先使用 DataLearner 配置的 API 记录；缺失项不做推测。

Kimi K2.6在以下类目领先:Coding and Software Engineer (4/4)、General Knowledge (3/3)、Math and Reasoning (2/2)、AI Agent - Information Search (1/1)、AI Agent - Tool Usage (1/1)
Kimi K2.5在以下类目领先:Claw-style Agent Evaluation (1/1)

12 个共同 benchmark 上，Kimi K2.6 平均高出 6.27 分。

单项差距最大的 benchmark：BrowseComp — Kimi K2.6 83.20，Kimi K2.5 60.60（分差 +22.60）。

本页正文由结构化模型、价格与 benchmark 数据生成，不使用实时 LLM 撰写。