Kimi K2.5vsKimi K2

在 9 个共同 benchmark 中,Kimi K2.5 整体领先:Kimi K2.5 领先 8 项,Kimi K2 领先 1 项,持平 0 项,平均分差 +25.61。

Moonshot AI
Kimi K2.5

Moonshot AI · 2026-01-27 · 多模态大模型

Moonshot AI
Kimi K2

Moonshot AI · 2025-07-11 · 聊天大模型

Kimi K2.58 (89%)(11%)1 Kimi K2

评测分数

按能力类目分组,每组内按分差大小排列;共 9 项。

General Knowledge

Kimi K2.5 领先 3/4
评测项Kimi K2.5Kimi K2分差
ARC-AGI65.3031 / 65Thinking (No Tools)13.3057 / 65+52
HLE50.2020 / 157Thinking (With Tools)4.70154 / 157+45.50
GPQA Diamond87.6034 / 178Thinking (No Tools)75.1093 / 178+12.50
MMLU Pro78.5066 / 126Thinking (No Tools)81.1053 / 126-2.60

Coding and Software Engineer

Kimi K2.5 领先 2/2
评测项Kimi K2.5Kimi K2分差
LiveCodeBench8516 / 120Thinking (No Tools)53.7086 / 120+31.30
SWE-bench Verified76.8027 / 108Thinking (With Tools)51.8088 / 108+25

Math and Reasoning

Kimi K2.5 领先 2/2
评测项Kimi K2.5Kimi K2分差
AIME202596.1021 / 106Thinking (No Tools)5485 / 106+42.10
FrontierMath - Tier 44.2040 / 80Normal (No Tools)0.0171 / 80+4.19

常识推理

Kimi K2.5 领先 1/1
评测项Kimi K2.5Kimi K2分差
Simple Bench46.8013 / 27Thinking (No Tools)26.3024 / 27+20.50

规格对比

字段Kimi K2.5Kimi K2
发布机构Moonshot AIMoonshot AI
发布时间2026-01-272025-07-11
模型类型多模态大模型聊天大模型
架构MoE 架构MoE 架构
参数规模1万亿1万亿
上下文长度256K131K
最大输出16K131K

小结

  • Kimi K2.5在以下类目领先:General Knowledge (3/4)、Coding and Software Engineer (2/2)、Math and Reasoning (2/2)、常识推理 (1/1)

9 个共同 benchmark 上,Kimi K2.5 平均高出 25.61 分。

单项差距最大的 benchmark:ARC-AGI — Kimi K2.5 65.30,Kimi K2 13.30(分差 +52)。

本页正文由结构化模型、价格与 benchmark 数据生成,不使用实时 LLM 撰写。