MiniMax M2.5vsKimi K2.5

MiniMax M2.5 与 Kimi K2.5 在 14 个共同 benchmark 中整体接近：MiniMax M2.5 领先 7 项，Kimi K2.5 领先 7 项，持平 0 项，平均分差 -1.56。

MiniMaxAI · 2026-02-12 · 推理大模型

Moonshot AI · 2026-01-27 · 多模态大模型

MiniMax M2.57 项(50%)(50%)7 项Kimi K2.5

评测分数

按能力类目分组，每组内按分差大小排列；共 14 项。

Kimi K2.5 领先 5/5

评测项	MiniMax M2.5	Kimi K2.5	分差
HLE	19.40121 / 172Thinking (No Tools)	50.2027 / 172Thinking (With Tools)	-30.80
LiveBench	60.1468 / 115Deep Thinking (No Tools)	69.0742 / 115Thinking (No Tools)	-8.93
ARC-AGI-2	4.9047 / 62Thinking (No Tools)	11.8039 / 62Thinking (No Tools)	-6.90
GPQA Diamond	85.2053 / 187Thinking (No Tools)	87.6037 / 187Thinking (No Tools)	-2.40
ARC-AGI	63.7035 / 68Thinking (No Tools)	65.3034 / 68Thinking (No Tools)	-1.60

MiniMax M2.5 领先 2/2

评测项	MiniMax M2.5	Kimi K2.5	分差
Claw Bench	92.104 / 29Thinking (With Tools)	81.7018 / 29Thinking (With Tools)	+10.40
Pinch Bench	87.806 / 37Thinking (With Tools)	84.8017 / 37Thinking (With Tools)	+3

MiniMax M2.5 领先 2/2

评测项	MiniMax M2.5	Kimi K2.5	分差
SWE-Bench Pro - Public	55.4026 / 54	50.7041 / 54Thinking (With Tools)	+4.70
SWE-bench Verified	80.2014 / 112	76.8030 / 112Thinking (With Tools)	+3.40

MiniMax M2.5 领先 1/1

评测项	MiniMax M2.5	Kimi K2.5	分差
BrowseComp	76.3023 / 53	60.6036 / 53Thinking (With Tools + Internet)	+15.70

MiniMax M2.5 领先 1/1

评测项	MiniMax M2.5	Kimi K2.5	分差
Terminal Bench 2.0	51.7031 / 47	50.8034 / 47Thinking (With Tools)	+0.90

MiniMax M2.5 领先 1/1

评测项	MiniMax M2.5	Kimi K2.5	分差
AA-LCR	69.505 / 15Thinking (No Tools)	6512 / 15Thinking (No Tools)	+4.50

Kimi K2.5 领先 1/1

评测项	MiniMax M2.5	Kimi K2.5	分差
AIME2025	86.3049 / 107Thinking (No Tools)	96.1021 / 107Thinking (No Tools)	-9.80

Kimi K2.5 领先 1/1

评测项	MiniMax M2.5	Kimi K2.5	分差
GDPval-AA	3617 / 21Thinking (No Tools)	4015 / 21Thinking (No Tools)	-4

价格优先使用 DataLearner 配置的 API 记录；缺失项不做推测。

MiniMax M2.5在以下类目领先:Claw-style Agent Evaluation (2/2)、Coding and Software Engineer (2/2)、AI Agent - Information Search (1/1)、AI Agent - Tool Usage (1/1)、Long Context (1/1)
Kimi K2.5在以下类目领先:General Knowledge (5/5)、Math and Reasoning (1/1)、Productivity Knowledge (1/1)

14 个共同 benchmark 上，Kimi K2.5 平均高出 1.56 分。

单项差距最大的 benchmark：HLE — MiniMax M2.5 19.40，Kimi K2.5 50.20（分差 -30.80）。

本页正文由结构化模型、价格与 benchmark 数据生成，不使用实时 LLM 撰写。