Kimi K2.5vsKimi K2

在 9 个共同 benchmark 中，Kimi K2.5 整体领先：Kimi K2.5 领先 8 项，Kimi K2 领先 1 项，持平 0 项，平均分差 +25.61。

Moonshot AI · 2026-01-27 · 多模态大模型

Moonshot AI · 2025-07-11 · 聊天大模型

Kimi K2.58 项(89%)(11%)1 项Kimi K2

评测分数

按能力类目分组，每组内按分差大小排列；共 9 项。

Kimi K2.5 领先 3/4

评测项	Kimi K2.5	Kimi K2	分差
ARC-AGI	65.3031 / 65Thinking (No Tools)	13.3057 / 65	+52
HLE	50.2020 / 157Thinking (With Tools)	4.70154 / 157	+45.50
GPQA Diamond	87.6034 / 178Thinking (No Tools)	75.1093 / 178	+12.50
MMLU Pro	78.5066 / 126Thinking (No Tools)	81.1053 / 126	-2.60

Kimi K2.5 领先 2/2

评测项	Kimi K2.5	Kimi K2	分差
LiveCodeBench	8516 / 120Thinking (No Tools)	53.7086 / 120	+31.30
SWE-bench Verified	76.8027 / 108Thinking (With Tools)	51.8088 / 108	+25

Kimi K2.5 领先 2/2

评测项	Kimi K2.5	Kimi K2	分差
AIME2025	96.1021 / 106Thinking (No Tools)	5485 / 106	+42.10
FrontierMath - Tier 4	4.2040 / 80Normal (No Tools)	0.0171 / 80	+4.19

Kimi K2.5 领先 1/1

评测项	Kimi K2.5	Kimi K2	分差
Simple Bench	46.8013 / 27Thinking (No Tools)	26.3024 / 27	+20.50

Kimi K2.5在以下类目领先:General Knowledge (3/4)、Coding and Software Engineer (2/2)、Math and Reasoning (2/2)、常识推理 (1/1)

9 个共同 benchmark 上，Kimi K2.5 平均高出 25.61 分。

单项差距最大的 benchmark：ARC-AGI — Kimi K2.5 65.30，Kimi K2 13.30（分差 +52）。

本页正文由结构化模型、价格与 benchmark 数据生成，不使用实时 LLM 撰写。