Kimi K2.5 评测详情
Kimi K2.5 当前已收录的代表性评测结果包括 HLE(17 / 149,得分 50.20)、LiveCodeBench(14 / 118,得分 85)、GPQA Diamond(31 / 175,得分 87.60)。本页还提供与 2 个竞品模型及 3 个前代或同系列模型的对比,在有数据时会展示性能和价格视图。并附有 1 个数据来源链接供参考。
评测结果
Kimi K2.5
评测结果
综合评估
共 6 项评测评测名称 / 模式
得分
排名/总数
编程与软件工程
共 4 项评测评测名称 / 模式
得分
排名/总数
竞品对比
Kimi K2.5 与同类主流模型的评测得分对比
评测类别:
柱状图按当前筛选范围内每个模型在各评测中的最高分展示;具体模式明细请看下方表格。
评测得分对比
12 项可对比评测得分汇总。每个模型展示最佳得分,模式在分数下方标注。
| 评测项 | Kimi K2.5当前 | GLM-5 | MiniMax M2.5 |
|---|---|---|---|
ARC-AGI 综合评估 | 65.30开启思考 | 44.70开启思考 | 63.70开启思考 |
ARC-AGI-2 综合评估 | 11.80开启思考 | 4.90开启思考 | 4.90开启思考 |
GPQA Diamond 综合评估 | 87.60开启思考 | 86.00开启思考 | 85.20开启思考 |
HLE 综合评估 | 50.20开启思考 | 工具 | 50.40开启思考 | 工具 | 19.40开启思考 |
SWE-Bench Pro - Public 编程与软件工程 | 50.70开启思考 | 工具 | -- | 55.40开启思考 | 工具 |
SWE-bench Verified 编程与软件工程 | 76.80开启思考 | 工具 | 77.80开启思考 | 80.20开启思考 | 工具 |
AIME 2026 数学推理 | 92.50开启思考 | 92.70开启思考 | -- |
AIME2025 数学推理 | 96.10开启思考 | -- | 86.30开启思考 |
4.20常规模式 | 2.10常规模式 | -- | |
IMO-AnswerBench 数学推理 | 81.80开启思考 | 82.50开启思考 | -- |
BrowseComp AI Agent - 信息收集 | 60.60开启思考 | 工具 | 75.90开启思考 | 工具 | 76.30开启思考 | 工具 |
Terminal Bench 2.0 AI Agent - 工具使用 | 50.80开启思考 | 工具 | 61.10开启思考 | 工具 | 51.70开启思考 | 工具 |
其余 4 个 benchmark 仍可在上方图表中查看。
Kimi K2.5 与同类模型的标准 API 价格对比
按模型并排展示标准文本输入价与输出价;若存在超长上下文加价,仅保留阈值内标准价,并在下方说明适用范围。
数据来源:DataLearnerAI,展示默认供应商的标准文本价格。 · USD / 1M tokens
| 模型 | 供应商 | 标准输入 | 标准输出 | 标准价适用于 |
|---|---|---|---|---|
Kimi K2.5 | — | 0.6 美元/100 万tokens | 3 美元/100 万tokens | — |
GLM-5 | 智谱AI | $1 / 1M tokens | $3.2 / 1M tokens | — |
MiniMax M2.5 | MiniMaxAI | $0.3 / 1M tokens | $2.4 / 1M tokens | — |
历代版本对比
Kimi K2.5 系列各版本的评测成绩纵向对比
评测类别:
柱状图按当前筛选范围内每个模型在各评测中的最高分展示;具体模式明细请看下方表格。
评测得分对比
12 项可对比评测得分汇总。每个模型展示最佳得分,模式在分数下方标注。· 点击任意行可切换下方趋势图。
| 评测项 | Kimi K2.5当前 | Kimi K2 Thinking | Kimi K2 0905 | Kimi K2 |
|---|---|---|---|---|
ARC-AGI 综合评估 | 65.30开启思考 | -- | -- | 13.30常规模式 |
GPQA Diamond 综合评估 | 87.60开启思考 | 84.50开启思考 | -- | 75.10常规模式 |
HLE 综合评估 | 50.20开启思考 | 工具 | 51.00开启思考 | 工具 | 21.70开启思考 | 工具 | 4.70常规模式 |
MMLU Pro 综合评估 | 78.50开启思考 | 84.60开启思考 | -- | 81.10常规模式 |
LiveCodeBench 编程与软件工程 | 85.00开启思考 | 83.10开启思考 | -- | 53.70常规模式 |
SWE-Bench Pro - Public 编程与软件工程 | 50.70开启思考 | 工具 | -- | 27.67常规模式 | -- |
SWE-bench Verified 编程与软件工程 | 76.80开启思考 | 工具 | 71.30开启思考 | 工具 | 69.20常规模式 | 51.80常规模式 |
AIME2025 数学推理 | 96.10开启思考 | 100.00开启思考 | 工具 | 75.20开启思考 | 工具 | 54.00常规模式 |
4.20常规模式 | 0.00开启思考 | -- | 0.01常规模式 | |
Simple Bench 常识推理 | 46.80开启思考 | -- | -- | 26.30常规模式 |
BrowseComp AI Agent - 信息收集 | 60.60开启思考 | 工具 | 60.20开启思考 | 工具 | -- | -- |
Claw Bench OpenClaw智能体能力综合测评 | 81.70开启思考 | 工具 | 82.50开启思考 | 工具 | -- | -- |
单评测历史趋势图
当前查看:ARC-AGI · 综合评估
选择评测
Kimi K2.5 所在系列的标准 API 价格对比
按模型并排展示标准文本输入价与输出价;若存在超长上下文加价,仅保留阈值内标准价,并在下方说明适用范围。
数据来源:DataLearnerAI,展示默认供应商的标准文本价格。
这些模型的价格币种或计费单位不一致,暂不直接绘制统一柱状图,以下展示原始价格。
Kimi K2.5
标准输入: 0.6 美元/100 万tokens
标准输出: 3 美元/100 万tokens
Kimi K2 Thinking
标准输入: 0.6 美元/100 万tokens
标准输出: 2.5 美元/100 万tokens
Kimi K2 0905
标准输入: 0.60 美元/ 100 万tokens
标准输出: 2.5 美元/ 100 万tokens
Kimi K2
标准输入: 0.6 美元/100 万tokens
标准输出: 2.5 美元/100 万tokens
| 模型 | 供应商 | 标准输入 | 标准输出 | 标准价适用于 |
|---|---|---|---|---|
Kimi K2.5 | — | 0.6 美元/100 万tokens | 3 美元/100 万tokens | — |
Kimi K2 Thinking | — | 0.6 美元/100 万tokens | 2.5 美元/100 万tokens | — |
Kimi K2 0905 | — | 0.60 美元/ 100 万tokens | 2.5 美元/ 100 万tokens | — |
Kimi K2 | — | 0.6 美元/100 万tokens | 2.5 美元/100 万tokens | — |