GLM-5vsKimi K2.5

在 17 个共同 benchmark 中，GLM-5 整体领先：GLM-5 领先 10 项，Kimi K2.5 领先 7 项，持平 0 项，平均分差 +1.06。

智谱AI · 2026-02-11 · 聊天大模型

Moonshot AI · 2026-01-27 · 多模态大模型

GLM-510 项(59%)(41%)7 项Kimi K2.5

评测分数

按能力类目分组，每组内按分差大小排列；共 17 项。

Kimi K2.5 领先 4/5

评测项	GLM-5	Kimi K2.5	分差
ARC-AGI	44.7047 / 68Thinking (No Tools)	65.3034 / 68Thinking (No Tools)	-20.60
ARC-AGI-2	4.9047 / 62Thinking (No Tools)	11.8039 / 62Thinking (No Tools)	-6.90
GPQA Diamond	8648 / 187Thinking (No Tools)	87.6037 / 187Thinking (No Tools)	-1.60
LiveBench	68.8543 / 115Normal (No Tools)	69.0742 / 115Thinking (No Tools)	-0.22
HLE	50.4025 / 172	50.2027 / 172Thinking (With Tools)	+0.20

GLM-5 领先 2/3

评测项	GLM-5	Kimi K2.5	分差
FrontierMath - Tier 4	2.1056 / 80Normal (No Tools)	4.2040 / 80Normal (No Tools)	-2.10
IMO-AnswerBench	82.5015 / 21Thinking (No Tools)	81.8016 / 21Thinking (No Tools)	+0.70
AIME 2026	92.709 / 18Thinking (No Tools)	92.5012 / 18Thinking (No Tools)	+0.20

GLM-5 领先 2/2

评测项	GLM-5	Kimi K2.5	分差
Claw Bench	91.705 / 29Thinking (With Tools)	81.7018 / 29Thinking (With Tools)	+10
Pinch Bench	86.4012 / 37Thinking (With Tools)	84.8017 / 37Thinking (With Tools)	+1.60

Kimi K2.5 领先 2/2

评测项	GLM-5	Kimi K2.5	分差
AA-LCR	6314 / 15Thinking (No Tools)	6512 / 15Thinking (No Tools)	-2
LongBench v2	60.806 / 11Normal (No Tools)	615 / 11Normal (No Tools)	-0.20

GLM-5 领先 1/1

评测项	GLM-5	Kimi K2.5	分差
BrowseComp	75.9024 / 53	60.6036 / 53Thinking (With Tools + Internet)	+15.30

GLM-5 领先 1/1

评测项	GLM-5	Kimi K2.5	分差
Terminal Bench 2.0	61.1018 / 47	50.8034 / 47Thinking (With Tools)	+10.30

GLM-5 领先 1/1

评测项	GLM-5	Kimi K2.5	分差
SWE-bench Verified	77.8025 / 112Thinking (No Tools)	76.8030 / 112Thinking (With Tools)	+1

GLM-5 领先 1/1

评测项	GLM-5	Kimi K2.5	分差
GDPval-AA	4614 / 21Thinking (No Tools)	4015 / 21Thinking (No Tools)	+6

GLM-5 领先 1/1

评测项	GLM-5	Kimi K2.5	分差
Simple Bench	53.2023 / 63Normal (No Tools)	46.8030 / 63Thinking (No Tools)	+6.40

价格优先使用 DataLearner 配置的 API 记录；缺失项不做推测。

GLM-5在以下类目领先:Math and Reasoning (2/3)、Claw-style Agent Evaluation (2/2)、AI Agent - Information Search (1/1)、AI Agent - Tool Usage (1/1)、Coding and Software Engineer (1/1)、Productivity Knowledge (1/1)、常识推理 (1/1)
Kimi K2.5在以下类目领先:General Knowledge (4/5)、Long Context (2/2)

17 个共同 benchmark 上，GLM-5 平均高出 1.06 分。

单项差距最大的 benchmark：ARC-AGI — GLM-5 44.70，Kimi K2.5 65.30（分差 -20.60）。

本页正文由结构化模型、价格与 benchmark 数据生成，不使用实时 LLM 撰写。