Kimi K2.6 评测详情
Kimi K2.6 当前已收录的代表性评测结果包括 LiveCodeBench(3 / 110,得分 89.60)、HLE(6 / 133,得分 54)、AIME 2026(1 / 13,得分 96.40)。本页还提供与 3 个竞品模型及 3 个前代或同系列模型的对比,在有数据时会展示性能和价格视图。并附有 1 个数据来源链接供参考。
评测结果
Kimi K2.6
评测结果
编程与软件工程
共 4 项评测评测名称 / 模式
得分
排名/总数
AI Agent - 工具使用
共 3 项评测评测名称 / 模式
得分
排名/总数
竞品对比
Kimi K2.6 与同类主流模型的评测得分对比
评测类别:
柱状图按当前筛选范围内每个模型在各评测中的最高分展示;具体模式明细请看下方表格。
评测得分对比
9 项可对比评测得分汇总。每个模型展示最佳得分,模式在分数下方标注。
| 评测项 | Kimi K2.6当前 | Qwen3.6-Max-Preview | MiniMax-M2.7 | GLM 5.1 |
|---|---|---|---|---|
GPQA Diamond 综合评估 | 90.50开启思考 | -- | 87.00开启思考 | 86.20开启思考 |
HLE 综合评估 | 54.00开启思考 | 工具 | -- | 28.00开启思考 | 52.30开启思考 | 工具 |
SWE-Bench Pro - Public 编程与软件工程 | 58.60开启思考 | 工具 | -- | 56.20开启思考 | 工具 | 58.40开启思考 | 工具 |
BrowseComp AI Agent - 信息收集 | 83.20开启思考 | 工具 | -- | -- | 79.30开启思考 | 工具 |
Terminal Bench 2.0 AI Agent - 工具使用 | 66.70开启思考 | 工具 | 65.40深度思考模式 | 工具 | -- | 63.50开启思考 | 工具 |
Tool Decathlon AI Agent - 工具使用 | 50.00开启思考 | 工具 | -- | -- | 40.70开启思考 | 工具 |
AIME 2026 数学推理 | 96.40开启思考 | -- | -- | 95.30开启思考 |
IMO-AnswerBench 数学推理 | 86.00开启思考 | -- | -- | 83.80开启思考 |
Claw Bench OpenClaw智能体能力综合测评 | 80.90开启思考 | 工具 | -- | 91.70开启思考 | 工具 | -- |
Kimi K2.6 与同类模型的标准 API 价格对比
按模型并排展示标准文本输入价与输出价;若存在超长上下文加价,仅保留阈值内标准价,并在下方说明适用范围。
数据来源:DataLearnerAI,展示默认供应商的标准文本价格。 · USD / 1M tokens
若存在上下文阈值,图中标准价仅适用于以下范围:
Qwen3.6-Max-Preview: 输入 <= 32K
| 模型 | 供应商 | 标准输入 | 标准输出 | 标准价适用于 |
|---|---|---|---|---|
Kimi K2.6 | Facebook AI研究实验室 | $0.95 / 1M tokens | $4 / 1M tokens | — |
Qwen3.6-Max-Preview | — | 6 | 24 | 输入 <= 32K |
MiniMax-M2.7 | MiniMaxAI | $0.3 / 1M tokens | $1.2 / 1M tokens | — |
GLM 5.1 | 智谱AI | $1.4 / 1M tokens | $4.4 / 1M tokens | — |
历代版本对比
Kimi K2.6 系列各版本的评测成绩纵向对比
评测类别:
柱状图按当前筛选范围内每个模型在各评测中的最高分展示;具体模式明细请看下方表格。
评测得分对比
11 项可对比评测得分汇总。每个模型展示最佳得分,模式在分数下方标注。· 点击任意行可切换下方趋势图。
| 评测项 | Kimi K2.6当前 | Kimi K2.5 | Kimi K2 Thinking | Kimi K2 |
|---|---|---|---|---|
GPQA Diamond 综合评估 | 90.50开启思考 | 87.60开启思考 | 84.50开启思考 | 75.10常规模式 |
HLE 综合评估 | 54.00开启思考 | 工具 | 30.10开启思考 | 51.00开启思考 | 工具 | 4.70常规模式 |
LiveCodeBench 编程与软件工程 | 89.60开启思考 | 85.00开启思考 | 83.10开启思考 | 53.70常规模式 |
SWE-bench Multilingual 编程与软件工程 | 76.70开启思考 | 工具 | 73.00开启思考 | -- | -- |
SWE-Bench Pro - Public 编程与软件工程 | 58.60开启思考 | 工具 | 50.70开启思考 | 工具 | -- | -- |
SWE-bench Verified 编程与软件工程 | 80.20开启思考 | 工具 | 76.80开启思考 | 工具 | 71.30开启思考 | 工具 | 51.80常规模式 |
BrowseComp AI Agent - 信息收集 | 83.20开启思考 | 工具 | 60.60开启思考 | 工具 | 60.20开启思考 | 工具 | -- |
Terminal Bench 2.0 AI Agent - 工具使用 | 66.70开启思考 | 工具 | 50.80开启思考 | 工具 | -- | -- |
AIME 2026 数学推理 | 96.40开启思考 | 92.50开启思考 | -- | -- |
IMO-AnswerBench 数学推理 | 86.00开启思考 | 81.80开启思考 | -- | -- |
Claw Bench OpenClaw智能体能力综合测评 | 80.90开启思考 | 工具 | 81.70开启思考 | 工具 | 82.50开启思考 | 工具 | -- |
单评测历史趋势图
当前查看:GPQA Diamond · 综合评估
选择评测
Kimi K2.6 所在系列的标准 API 价格对比
按模型并排展示标准文本输入价与输出价;若存在超长上下文加价,仅保留阈值内标准价,并在下方说明适用范围。
数据来源:DataLearnerAI,展示默认供应商的标准文本价格。 · USD / 1M tokens
| 模型 | 供应商 | 标准输入 | 标准输出 | 标准价适用于 |
|---|---|---|---|---|
Kimi K2.6 | Facebook AI研究实验室 | $0.95 / 1M tokens | $4 / 1M tokens | — |
Kimi K2.5 | — | 0.6 美元/100 万tokens | 3 美元/100 万tokens | — |
Kimi K2 Thinking | — | 0.6 美元/100 万tokens | 2.5 美元/100 万tokens | — |
Kimi K2 | — | 0.6 美元/100 万tokens | 2.5 美元/100 万tokens | — |