MiniMax M2.5vsGLM-5

在 14 个共同 benchmark 中，GLM-5 整体领先：MiniMax M2.5 领先 6 项，GLM-5 领先 7 项，持平 1 项，平均分差 -2.29。

MiniMaxAI · 2026-02-12 · 推理大模型

智谱AI · 2026-02-11 · 聊天大模型

MiniMax M2.56 项(43%)持平1(50%)7 项GLM-5

评测分数

按能力类目分组，每组内按分差大小排列；共 14 项。

GLM-5 领先 3/5

评测项	MiniMax M2.5	GLM-5	分差
HLE	19.40121 / 172Thinking (No Tools)	50.4025 / 172	-31
ARC-AGI	63.7035 / 68Thinking (No Tools)	44.7047 / 68Thinking (No Tools)	+19
LiveBench	60.1468 / 115Deep Thinking (No Tools)	68.8543 / 115Normal (No Tools)	-8.71
GPQA Diamond	85.2053 / 187Thinking (No Tools)	8648 / 187Thinking (No Tools)	-0.80
ARC-AGI-2	4.9047 / 62Thinking (No Tools)	4.9047 / 62Thinking (No Tools)	持平

MiniMax M2.5 领先 2/2

评测项	MiniMax M2.5	GLM-5	分差
Pinch Bench	87.806 / 37Thinking (With Tools)	86.4012 / 37Thinking (With Tools)	+1.40
Claw Bench	92.104 / 29Thinking (With Tools)	91.705 / 29Thinking (With Tools)	+0.40

GLM-5 领先 1/1

评测项	MiniMax M2.5	GLM-5	分差
τ²-Bench - Telecom	97.8010 / 35	985 / 35	-0.20

MiniMax M2.5 领先 1/1

评测项	MiniMax M2.5	GLM-5	分差
BrowseComp	76.3023 / 53	75.9024 / 53	+0.40

GLM-5 领先 1/1

评测项	MiniMax M2.5	GLM-5	分差
Terminal Bench 2.0	51.7031 / 47	61.1018 / 47	-9.40

MiniMax M2.5 领先 1/1

评测项	MiniMax M2.5	GLM-5	分差
SWE-bench Verified	80.2014 / 112	77.8025 / 112Thinking (No Tools)	+2.40

GLM-5 领先 1/1

评测项	MiniMax M2.5	GLM-5	分差
IF Bench	7013 / 30	7211 / 30	-2

MiniMax M2.5 领先 1/1

评测项	MiniMax M2.5	GLM-5	分差
AA-LCR	69.505 / 15Thinking (No Tools)	6314 / 15Thinking (No Tools)	+6.50

GLM-5 领先 1/1

评测项	MiniMax M2.5	GLM-5	分差
GDPval-AA	3617 / 21Thinking (No Tools)	4614 / 21Thinking (No Tools)	-10

价格优先使用 DataLearner 配置的 API 记录；缺失项不做推测。

MiniMax M2.5在以下类目领先:Claw-style Agent Evaluation (2/2)、AI Agent - Information Search (1/1)、Coding and Software Engineer (1/1)、Long Context (1/1)
GLM-5在以下类目领先:General Knowledge (3/5)、Agent Level Benchmark (1/1)、AI Agent - Tool Usage (1/1)、Instruction Following (1/1)、Productivity Knowledge (1/1)

14 个共同 benchmark 上，GLM-5 平均高出 2.29 分。

单项差距最大的 benchmark：HLE — MiniMax M2.5 19.40，GLM-5 50.40（分差 -31）。

本页正文由结构化模型、价格与 benchmark 数据生成，不使用实时 LLM 撰写。