Kimi K2.5vsKimi K2 Thinking

在 11 个共同 benchmark 中，Kimi K2.5 整体领先：Kimi K2.5 领先 7 项，Kimi K2 Thinking 领先 4 项，持平 0 项，平均分差 +1.65。

Moonshot AI · 2026-01-27 · 多模态大模型

Moonshot AI · 2025-11-06 · 推理大模型

Kimi K2.57 项(64%)(36%)4 项Kimi K2 Thinking

评测分数

按能力类目分组，每组内按分差大小排列；共 11 项。

胶着 4/4

评测项	Kimi K2.5	Kimi K2 Thinking	分差
LiveBench	69.0742 / 115Thinking (No Tools)	61.5963 / 115Thinking (No Tools)	+7.48
MMLU Pro	78.5069 / 132Thinking (No Tools)	84.6033 / 132	-6.10
GPQA Diamond	87.6037 / 187Thinking (No Tools)	84.5057 / 187	+3.10
HLE	50.2027 / 172Thinking (With Tools)	5123 / 172	-0.80

Kimi K2.5 领先 2/2

评测项	Kimi K2.5	Kimi K2 Thinking	分差
SWE-bench Verified	76.8030 / 112Thinking (With Tools)	71.3055 / 112	+5.50
LiveCodeBench	8516 / 123Thinking (No Tools)	83.1022 / 123	+1.90

胶着 2/2

评测项	Kimi K2.5	Kimi K2 Thinking	分差
FrontierMath - Tier 4	4.2040 / 80Normal (No Tools)	072 / 80Thinking (No Tools)	+4.20
AIME2025	96.1021 / 107Thinking (No Tools)	1001 / 107	-3.90

Kimi K2.5 领先 1/1

评测项	Kimi K2.5	Kimi K2 Thinking	分差
BrowseComp	60.6036 / 53Thinking (With Tools + Internet)	60.2037 / 53	+0.40

Kimi K2 Thinking 领先 1/1

评测项	Kimi K2.5	Kimi K2 Thinking	分差
Claw Bench	81.7018 / 29Thinking (With Tools)	82.5017 / 29Thinking (With Tools)	-0.80

Kimi K2.5 领先 1/1

评测项	Kimi K2.5	Kimi K2 Thinking	分差
Simple Bench	46.8030 / 63Thinking (No Tools)	39.6041 / 63Normal (No Tools)	+7.20

价格优先使用 DataLearner 配置的 API 记录；缺失项不做推测。

Kimi K2.5在以下类目领先:Coding and Software Engineer (2/2)、AI Agent - Information Search (1/1)、常识推理 (1/1)
Kimi K2 Thinking在以下类目领先:Claw-style Agent Evaluation (1/1)
胶着类目:General Knowledge、Math and Reasoning

11 个共同 benchmark 上，Kimi K2.5 平均高出 1.65 分。

单项差距最大的 benchmark：LiveBench — Kimi K2.5 69.07，Kimi K2 Thinking 61.59（分差 +7.48）。

本页正文由结构化模型、价格与 benchmark 数据生成，不使用实时 LLM 撰写。