模型评测对比
最新基准汇总
MiniMax M2与Qwen3-235B-A22B-Thinking、Kimi K2 0905、GLM-4.6等模型对比
本页面提供MiniMax M2,Qwen3-235B-A22B-Thinking,Kimi K2 0905,GLM-4.6,DeepSeek V3.2-Exp模型的对比,包括参数、开源情况、API价格等。同时,页面也会展示MiniMax M2,Qwen3-235B-A22B-Thinking,Kimi K2 0905,GLM-4.6,DeepSeek V3.2-Exp模型在GPQA Diamond,HLE,LiveBench,MMLU Pro,LiveCodeBench,SWE-Bench Pro - Public,SWE-bench Verified,AIME2025,IMO-ProofBench,Aider-Polyglot,Terminal-Bench,τ²-Bench,τ²-Bench - Telecom,IF Bench,BrowseComp,Creative Writing,SimpleQA等评测基准中的详细对比数据,评测数据来自系统收录结果汇总。
📊 左右滑动可查看更多模型数据 →
MiniMax M2
MiniMaxAI 发布的聊天大模型模型。
Qwen3-235B-A22B-Thinking
阿里巴巴 发布的推理大模型模型。
Kimi K2 0905
Moonshot AI 发布的聊天大模型模型。
核心信息
开发机构
Moonshot AI
Moonshot AI
发布时间
2025-09-05
模型类型
聊天大模型
MoE 架构
性能与规格
总参数量
10,000 亿
激活参数量
320 亿
模型大小
1.01TB
推理能力
推理速度
思考模式
深度思考
最大上下文
256K
最大输出
4096
支持模态
Input
Output
开源与许可
开源与许可
代码开源
否
权重开源
否
商业用途
免费商用授权
相关资源
论文/报告
模型详细介绍
阅读
相关链接
GLM-4.6
智谱AI 发布的聊天大模型模型。
DeepSeek V3.2-Exp
DeepSeek-AI 发布的推理大模型模型。
核心信息
开发机构
DeepSeek-AI
DeepSeek-AI
发布时间
2025-09-29
模型类型
推理大模型
MoE 架构
性能与规格
总参数量
6,710 亿
激活参数量
370 亿
模型大小
1342GB
推理能力
推理速度
思考模式
深度思考
最大上下文
128K
最大输出
64000
支持模态
Input
Output
开源与许可
开源与许可
代码开源
否
权重开源
否
商业用途
免费商用授权
相关资源
论文/报告
查看
模型详细介绍
--
相关链接
评测对比模式筛选
当前大多数模型的评测都有不同的模式,包括是否使用推理过程,是否使用工具等,建议选择特定模式对比。
点击下方任一按钮,将 过滤模型的模式的对比表格,并同步更新
汇总图 与 各基准小图。
快捷组合
思考模式
说明:Thinking(默认)在检测到 low / medium / high 子模式时只保留 medium 版本,点击 Thinking(全部)可查看所有子模式。
工具使用
MiniMax M2与Qwen3-235B-A22B-Thinking、Kimi K2 0905、GLM-4.6等模型各评测基准得分对比表
| 评测基准 |
MiniMax M2
thinking
|
MiniMax M2
thinking + 使用工具
|
MiniMax M2
normal
|
Qwen3-235B-A22B-Thinking
thinking
|
Kimi K2 0905
thinking + 使用工具
|
Kimi K2 0905
normal
|
GLM-4.6
thinking + 使用工具
|
GLM-4.6
thinking
|
GLM-4.6
normal
|
DeepSeek V3.2-Exp
thinking
|
DeepSeek V3.2-Exp
normal
|
DeepSeek V3.2-Exp
thinking + 使用工具
|
DeepSeek V3.2-Exp
normal + 使用工具
|
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
|
GPQA Diamond
综合评估
|
78 | -- | -- | 81.1 | -- | -- | 82.9 | 81 | 63 | 79.9 | 74 | -- | -- |
|
HLE
综合评估
|
12.5 | -- | -- | 18.2 | 21.7 | -- | 30.4 | 17.2 | 5.2 | 19.8 | 8.6 | 20.3 | -- |
|
LiveBench
综合评估
|
64.26 | -- | 64.26 | 63.42 | -- | -- | -- | 71.22 | 71.22 | 71.64 | 66.64 | -- | -- |
|
MMLU Pro
综合评估
|
82 | -- | -- | 84.4 | -- | -- | -- | 83 | 78 | 85 | 84 | -- | -- |
|
LiveCodeBench
编程与软件工程
|
83 | -- | -- | 74.1 | -- | -- | 84.5 | 82.8 | 56 | 74.1 | 55 | -- | -- |
|
SWE-Bench Pro - Public
编程与软件工程
|
-- | -- | -- | -- | -- | 27.67 | -- | -- | -- | -- | -- | -- | -- |
|
SWE-bench Verified
编程与软件工程
|
-- | 69.4 | -- | -- | 69.2 | 69.2 | 68 | -- | 68 | -- | -- | 67.8 | -- |
|
AIME2025
数学推理
|
78 | -- | -- | 92.3 | 75.2 | -- | 98.6 | 98.6 | 44 | 89.3 | 58 | -- | -- |
|
IMO-ProofBench
数学推理
|
-- | -- | -- | -- | -- | 7.1 | -- | -- | -- | -- | -- | -- | -- |
|
Aider-Polyglot
Agent能力评测
|
-- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | 74.5 | -- |
|
Terminal-Bench
Agent能力评测
|
-- | 24 | -- | -- | 44.5 | 44.5 | 40.5 | -- | -- | -- | -- | 37.7 | 23 |
|
τ²-Bench
Agent能力评测
|
-- | 77.2 | -- | -- | -- | -- | 75.9 | -- | -- | -- | -- | 66.7 | -- |
|
τ²-Bench - Telecom
Agent能力评测
|
-- | 87 | -- | -- | -- | -- | 71 | -- | -- | -- | -- | 34 | 34 |
|
IF Bench
指令跟随
|
72.3 | -- | -- | -- | -- | -- | -- | 43 | -- | 54.1 | -- | -- | -- |
|
BrowseComp
AI Agent - 信息收集
|
-- | 44 | -- | -- | -- | -- | 45.1 | -- | -- | -- | -- | 40.1 | -- |
|
Creative Writing
写作和创作
|
-- | -- | -- | 86.1 | -- | -- | -- | -- | -- | -- | -- | -- | -- |
|
SimpleQA
真实性评估
|
-- | -- | -- | -- | -- | -- | -- | -- | -- | -- | -- | 97.1 | -- |
MiniMaxAI
阿里巴巴
智谱AI