DeepSeek-V4-Pro vs Qwen3.6-Max-Preview vs Kimi K2.6 vs GLM 5.1 vs MiniMax-M2.7 评测对比

自动展示选中模型的核心信息与各评测得分，可左右滑动查看完整表格。当前对比 5 个模型的评测数据与核心参数。

DeepSeek-V4-Pro

DeepSeek-AI

发布时间: 2026-04-24
上下文: 1M
参数量: 16,000 (act 490)
最大输出: 384,000 tokens

查看详情

Qwen3.6-Max-Preview

阿里巴巴

发布时间: 2026-04-20
上下文: 262K
参数量: 10,000
最大输出: 8,192 tokens

查看详情·在线体验

Kimi K2.6

Moonshot AI

发布时间: 2026-04-20
上下文: 256K
参数量: 10,000 (act 320)
支持模态: 常规模式（Non-Thinking Mode） · 思考模式（Thinking Mode）

查看详情·在线体验

GLM 5.1

智谱AI

发布时间: 2026-03-27
上下文: 200K
参数量: 754 (act 40)
最大输出: 128,000 tokens

查看详情·在线体验

MiniMax-M2.7

MiniMaxAI

发布时间: 2026-03-18
上下文: 200K
参数量: 2,290 (act 100)
最大输出: 204,800 tokens

查看详情·在线体验

能力分布概览

每条轴代表一个评测领域的平均水平，并统一映射到 100 分雷达坐标。

视图: 非并行模式平均·6 个维度·已隐藏 1 个模型

DeepSeek-V4-Pro

相对优势: 生产力知识 +49.0 / 相对落后: 数学推理 -13.5

Qwen3.6-Max-Preview

相对优势: 综合评估 +6.3 / 相对落后: 生产力知识 -49.0

Kimi K2.6

相对优势: 编程与软件工程 +8.3 / 相对落后: 综合评估 -0.9

GLM 5.1

相对优势: 数学推理 +3.5 / 相对落后: 编程与软件工程 -15.5

计算口径：同一模型在同一 benchmark 下先平均当前模式范围内的所有分数，不取最高分；再按评测领域对这些 benchmark 分数求平均。只纳入至少两个模型有数据的 benchmark，缺项不按 0 分处理。

综合领先

DeepSeek-V4-Pro · 211.51

单项最高

DeepSeek-V4-Pro · GDPval-AA 1554.00

模态覆盖

Kimi K2.6 · 3 种模态

性能评测对比

支持不同模式与工具的榜单对比。

数据优先来自官方发布（GitHub、Hugging Face、论文），其次为评测基准官方结果，最后为第三方评测机构数据。了解数据收集方法

筛选: 最佳可用·5 个模式 · 11 评测基准

图表加载中...

评测得分表格

完整列出各模型/模式的评测得分，便于横向比较。

11 项可对比评测得分汇总。每个模型展示最佳得分，模式在分数下方标注。

评测项	DeepSeek-V4-Pro	Qwen3.6-Max-Preview	Kimi K2.6	GLM 5.1	MiniMax-M2.7
GPQA Diamond 综合评估	90.10思考水平·高	90.40思考水平·高	90.50开启思考	86.20开启思考	87.00开启思考
HLE 综合评估	48.20思考水平·极高｜工具	50.20开启思考｜工具	54.00开启思考｜工具	52.30开启思考｜工具	28.00开启思考
MMLU Pro 综合评估	87.50思考水平·高	88.50思考水平·高	--	--	--
LiveCodeBench 编程与软件工程	93.50思考水平·高	87.10思考水平·高	89.60开启思考	--	--
SWE-bench Multilingual 编程与软件工程	76.20思考水平·极高｜工具	73.80开启思考｜工具	76.70开启思考｜工具	--	--
SWE-Bench Pro - Public 编程与软件工程	55.40思考水平·极高｜工具	57.30深度思考模式｜工具	58.60开启思考｜工具	58.40开启思考｜工具	56.20开启思考｜工具
SWE-bench Verified 编程与软件工程	80.60思考水平·极高｜工具	78.80开启思考｜工具	80.20开启思考｜工具	--	--
BrowseComp AI Agent - 信息收集	83.40思考水平·极高｜工具	--	83.20开启思考｜工具	79.30开启思考｜工具	--
Terminal Bench 2.0 AI Agent - 工具使用	67.90思考水平·极高｜工具	61.60开启思考｜工具	66.70开启思考｜工具	63.50开启思考｜工具	--
IMO-AnswerBench 数学推理	89.80思考水平·高	83.80思考水平·高	86.00开启思考	83.80开启思考	--
GDPval-AA 生产力知识	1554.00思考水平·极高｜工具	51.00深度思考模式	--	--	50.00开启思考

API 价格对比

输入输出 token 价格并排展示

能力与规格明细

是否 MoE、商业授权、模态支持等附加能力对比。

功能与规格	DeepSeek-V4-ProDeepSeek-AI	Qwen3.6-Max-Preview阿里巴巴	Kimi K2.6Moonshot AI	GLM 5.1智谱AI	MiniMax-M2.7MiniMaxAI
核心规格发布时间	2026-04-24	2026-04-20	2026-04-20	2026-03-27	2026-03-18
上下文	1M	262K	256K	200K	200K
参数量	16000	10000	10000	754	2290
激活参数量	490	未提供	320	40	100
最大输出	384000	8192	未提供	128000	204800
MoE 架构	支持	支持	支持	支持	支持
支持模式	暂无模式数据	暂无模式数据	常规模式（Non-Thinking Mode）思考模式（Thinking Mode）	暂无模式数据	暂无模式数据
开源与许可代码开源	未开源	未提供	未提供	未开源	未提供
权重开源	未开源	未提供	未提供	未开源	未提供
商业授权	免费商用授权	不开源	免费商用授权	免费商用授权	不可以商用
模态支持文本输入/输出	/	未提供	/	/	未提供
图片输入/输出	/	未提供	/	未提供	未提供
视频输入/输出	未提供	未提供	/	未提供	未提供
资料来源论文 / 报告	DeepSeek-V4 Technical Report	阿里发布Qwen3.6-Max预览版	Kimi K2.6: Advancing Open-Source Coding	GLM-5.1: Towards Long-Horizon Tasks	MiniMax M2.7: Early Echoes of Self-Evolution
DataLearner 博客	未提供	未提供	未提供	未提供	MiniMax M2.7 发布：模型开始帮自己训练自己

Loading comparison...

能力分布概览

每条轴代表一个评测领域的平均水平，并统一映射到 100 分雷达坐标。

视图: 非并行模式平均·6 个维度·已隐藏 1 个模型

DeepSeek-V4-Pro

相对优势: 生产力知识 +49.0 / 相对落后: 数学推理 -13.5

Qwen3.6-Max-Preview

相对优势: 综合评估 +6.3 / 相对落后: 生产力知识 -49.0

Kimi K2.6

相对优势: 编程与软件工程 +8.3 / 相对落后: 综合评估 -0.9

GLM 5.1

相对优势: 数学推理 +3.5 / 相对落后: 编程与软件工程 -15.5

综合领先

DeepSeek-V4-Pro · 211.51

单项最高

DeepSeek-V4-Pro · GDPval-AA 1554.00

模态覆盖

Kimi K2.6 · 3 种模态

性能评测对比

支持不同模式与工具的榜单对比。

数据优先来自官方发布（GitHub、Hugging Face、论文），其次为评测基准官方结果，最后为第三方评测机构数据。了解数据收集方法

筛选: 最佳可用·5 个模式 · 11 评测基准

图表加载中...

评测得分表格

完整列出各模型/模式的评测得分，便于横向比较。

11 项可对比评测得分汇总。每个模型展示最佳得分，模式在分数下方标注。

评测项	DeepSeek-V4-Pro	Qwen3.6-Max-Preview	Kimi K2.6	GLM 5.1	MiniMax-M2.7
GPQA Diamond 综合评估	90.10思考水平·高	90.40思考水平·高	90.50开启思考	86.20开启思考	87.00开启思考
HLE 综合评估	48.20思考水平·极高｜工具	50.20开启思考｜工具	54.00开启思考｜工具	52.30开启思考｜工具	28.00开启思考
MMLU Pro 综合评估	87.50思考水平·高	88.50思考水平·高	--	--	--
LiveCodeBench 编程与软件工程	93.50思考水平·高	87.10思考水平·高	89.60开启思考	--	--
SWE-bench Multilingual 编程与软件工程	76.20思考水平·极高｜工具	73.80开启思考｜工具	76.70开启思考｜工具	--	--
SWE-Bench Pro - Public 编程与软件工程	55.40思考水平·极高｜工具	57.30深度思考模式｜工具	58.60开启思考｜工具	58.40开启思考｜工具	56.20开启思考｜工具
SWE-bench Verified 编程与软件工程	80.60思考水平·极高｜工具	78.80开启思考｜工具	80.20开启思考｜工具	--	--
BrowseComp AI Agent - 信息收集	83.40思考水平·极高｜工具	--	83.20开启思考｜工具	79.30开启思考｜工具	--
Terminal Bench 2.0 AI Agent - 工具使用	67.90思考水平·极高｜工具	61.60开启思考｜工具	66.70开启思考｜工具	63.50开启思考｜工具	--
IMO-AnswerBench 数学推理	89.80思考水平·高	83.80思考水平·高	86.00开启思考	83.80开启思考	--
GDPval-AA 生产力知识	1554.00思考水平·极高｜工具	51.00深度思考模式	--	--	50.00开启思考

API 价格对比

输入输出 token 价格并排展示

能力与规格明细

是否 MoE、商业授权、模态支持等附加能力对比。

功能与规格	DeepSeek-V4-ProDeepSeek-AI	Qwen3.6-Max-Preview阿里巴巴	Kimi K2.6Moonshot AI	GLM 5.1智谱AI	MiniMax-M2.7MiniMaxAI
核心规格发布时间	2026-04-24	2026-04-20	2026-04-20	2026-03-27	2026-03-18
上下文	1M	262K	256K	200K	200K
参数量	16000	10000	10000	754	2290
激活参数量	490	未提供	320	40	100
最大输出	384000	8192	未提供	128000	204800
MoE 架构	支持	支持	支持	支持	支持
支持模式	暂无模式数据	暂无模式数据	常规模式（Non-Thinking Mode）思考模式（Thinking Mode）	暂无模式数据	暂无模式数据
开源与许可代码开源	未开源	未提供	未提供	未开源	未提供
权重开源	未开源	未提供	未提供	未开源	未提供
商业授权	免费商用授权	不开源	免费商用授权	免费商用授权	不可以商用
模态支持文本输入/输出	/	未提供	/	/	未提供
图片输入/输出	/	未提供	/	未提供	未提供
视频输入/输出	未提供	未提供	/	未提供	未提供
资料来源论文 / 报告	DeepSeek-V4 Technical Report	阿里发布Qwen3.6-Max预览版	Kimi K2.6: Advancing Open-Source Coding	GLM-5.1: Towards Long-Horizon Tasks	MiniMax M2.7: Early Echoes of Self-Evolution
DataLearner 博客	未提供	未提供	未提供	未提供	MiniMax M2.7 发布：模型开始帮自己训练自己