模型评测对比 最新基准汇总

MiniMax M2与Qwen3-235B-A22B-Thinking、Kimi K2 0905、GLM-4.6等模型对比

本页面提供MiniMax M2,Qwen3-235B-A22B-Thinking,Kimi K2 0905,GLM-4.6,DeepSeek V3.2-Exp模型的对比,包括参数、开源情况、API价格等。同时,页面也会展示MiniMax M2,Qwen3-235B-A22B-Thinking,Kimi K2 0905,GLM-4.6,DeepSeek V3.2-Exp模型在GPQA Diamond,HLE,LiveBench,MMLU Pro,LiveCodeBench,SWE-Bench Pro - Public,SWE-bench Verified,AIME2025,IMO-ProofBench,Aider-Polyglot,Terminal-Bench,τ²-Bench,τ²-Bench - Telecom,IF Bench,BrowseComp,Creative Writing,SimpleQA等评测基准中的详细对比数据,评测数据来自系统收录结果汇总。
📊 左右滑动可查看更多模型数据 →
MiniMax M2
MiniMax M2

MiniMaxAI 发布的聊天大模型模型。

核心信息
开发机构 MiniMaxAI MiniMaxAI
发布时间 2025-10-27
模型类型 聊天大模型
MoE 架构
性能与规格
总参数量 2,300 亿
激活参数量 100 亿
模型大小 239.99 GB
推理能力
推理速度
思考模式
深度思考
最大上下文 205K
最大输出 0
支持模态
T T
Input
Output
开源与许可
开源与许可
代码开源
权重开源
商业用途 免费商用授权
相关资源
论文/报告
模型详细介绍 阅读
相关链接 🤗
Qwen3-235B-A22B-Thinking
Qwen3-235B-A22B-Thinking

阿里巴巴 发布的推理大模型模型。

核心信息
开发机构 阿里巴巴 阿里巴巴
发布时间 2025-07-30
模型类型 推理大模型
MoE 架构
性能与规格
总参数量 305 亿
激活参数量 33 亿
模型大小 31.17GB
推理能力
推理速度
思考模式
深度思考
最大上下文 256K
最大输出 16384
支持模态
T T
Input
Output
开源与许可
开源与许可
代码开源 --
权重开源 --
商业用途 免费商用授权
相关资源
论文/报告 查看
模型详细介绍 --
相关链接 🤗
Kimi K2 0905
Kimi K2 0905

Moonshot AI 发布的聊天大模型模型。

核心信息
开发机构 Moonshot AI Moonshot AI
发布时间 2025-09-05
模型类型 聊天大模型
MoE 架构
性能与规格
总参数量 10,000 亿
激活参数量 320 亿
模型大小 1.01TB
推理能力
推理速度
思考模式
深度思考
最大上下文 256K
最大输出 4096
支持模态
T T
Input
Output
开源与许可
开源与许可
代码开源
权重开源
商业用途 免费商用授权
相关资源
论文/报告
模型详细介绍 阅读
相关链接 🤗
GLM-4.6
GLM-4.6

智谱AI 发布的聊天大模型模型。

核心信息
开发机构 智谱AI 智谱AI
发布时间 2025-09-30
模型类型 聊天大模型
MoE 架构
性能与规格
总参数量 3,550 亿
激活参数量 320 亿
模型大小 705.48 GB
推理能力
推理速度
思考模式
深度思考
最大上下文 200K
最大输出 131072
支持模态
T T
Input
Output
开源与许可
开源与许可
代码开源
权重开源
商业用途 免费商用授权
相关资源
论文/报告 查看
模型详细介绍 --
相关链接 🤗
DeepSeek V3.2-Exp
DeepSeek V3.2-Exp

DeepSeek-AI 发布的推理大模型模型。

核心信息
开发机构 DeepSeek-AI DeepSeek-AI
发布时间 2025-09-29
模型类型 推理大模型
MoE 架构
性能与规格
总参数量 6,710 亿
激活参数量 370 亿
模型大小 1342GB
推理能力
推理速度
思考模式
深度思考
最大上下文 128K
最大输出 64000
支持模态
T T
Input
Output
开源与许可
开源与许可
代码开源
权重开源
商业用途 免费商用授权
相关资源
论文/报告 查看
模型详细介绍 --
相关链接 🤗
评测对比模式筛选
当前大多数模型的评测都有不同的模式,包括是否使用推理过程,是否使用工具等,建议选择特定模式对比。 点击下方任一按钮,将 过滤模型的模式的对比表格,并同步更新 汇总图各基准小图
快捷组合
思考模式

说明:Thinking(默认)在检测到 low / medium / high 子模式时只保留 medium 版本,点击 Thinking(全部)可查看所有子模式。

工具使用

MiniMax M2与Qwen3-235B-A22B-Thinking、Kimi K2 0905、GLM-4.6等模型各评测基准得分对比表

评测基准
MiniMax M2 thinking
MiniMax M2 thinking + 使用工具
MiniMax M2 normal
Qwen3-235B-A22B-Thinking thinking
Kimi K2 0905 thinking + 使用工具
Kimi K2 0905 normal
GLM-4.6 thinking + 使用工具
GLM-4.6 thinking
GLM-4.6 normal
DeepSeek V3.2-Exp thinking
DeepSeek V3.2-Exp normal
DeepSeek V3.2-Exp thinking + 使用工具
DeepSeek V3.2-Exp normal + 使用工具
GPQA Diamond
综合评估
78 -- -- 81.1 -- -- 82.9 81 63 79.9 74 -- --
HLE
综合评估
12.5 -- -- 18.2 21.7 -- 30.4 17.2 5.2 19.8 8.6 20.3 --
LiveBench
综合评估
64.26 -- 64.26 63.42 -- -- -- 71.22 71.22 71.64 66.64 -- --
MMLU Pro
综合评估
82 -- -- 84.4 -- -- -- 83 78 85 84 -- --
LiveCodeBench
编程与软件工程
83 -- -- 74.1 -- -- 84.5 82.8 56 74.1 55 -- --
SWE-Bench Pro - Public
编程与软件工程
-- -- -- -- -- 27.67 -- -- -- -- -- -- --
SWE-bench Verified
编程与软件工程
-- 69.4 -- -- 69.2 69.2 68 -- 68 -- -- 67.8 --
AIME2025
数学推理
78 -- -- 92.3 75.2 -- 98.6 98.6 44 89.3 58 -- --
IMO-ProofBench
数学推理
-- -- -- -- -- 7.1 -- -- -- -- -- -- --
Aider-Polyglot
Agent能力评测
-- -- -- -- -- -- -- -- -- -- -- 74.5 --
Terminal-Bench
Agent能力评测
-- 24 -- -- 44.5 44.5 40.5 -- -- -- -- 37.7 23
τ²-Bench
Agent能力评测
-- 77.2 -- -- -- -- 75.9 -- -- -- -- 66.7 --
τ²-Bench - Telecom
Agent能力评测
-- 87 -- -- -- -- 71 -- -- -- -- 34 34
IF Bench
指令跟随
72.3 -- -- -- -- -- -- 43 -- 54.1 -- -- --
BrowseComp
AI Agent - 信息收集
-- 44 -- -- -- -- 45.1 -- -- -- -- 40.1 --
Creative Writing
写作和创作
-- -- -- 86.1 -- -- -- -- -- -- -- -- --
SimpleQA
真实性评估
-- -- -- -- -- -- -- -- -- -- -- 97.1 --

MiniMax M2与Qwen3-235B-A22B-Thinking、Kimi K2 0905、GLM-4.6等模型评测结果汇总对比图

蓝色柱状系列表示选定模型 MiniMax M2 在不同模式下的表现

未在对比页指定评测基准,系统已自动加载 8 个评测类别, 共 17 项评测。

评测类别

综合评估评测对比

MiniMax M2与Qwen3-235B-A22B-Thinking、Kimi K2 0905、GLM-4.6等模型 · 4 项榜单 · 全部模式 / 全部工具

评测类别

编程与软件工程评测对比

MiniMax M2与Qwen3-235B-A22B-Thinking、Kimi K2 0905、GLM-4.6等模型 · 3 项榜单 · 全部模式 / 全部工具

评测类别

数学推理评测对比

MiniMax M2与Qwen3-235B-A22B-Thinking、Kimi K2 0905、GLM-4.6等模型 · 2 项榜单 · 全部模式 / 全部工具

评测类别

Agent能力评测评测对比

MiniMax M2与Qwen3-235B-A22B-Thinking、Kimi K2 0905、GLM-4.6等模型 · 4 项榜单 · 全部模式 / 全部工具

评测类别

指令跟随评测对比

MiniMax M2与Qwen3-235B-A22B-Thinking、Kimi K2 0905、GLM-4.6等模型 · 1 项榜单 · 全部模式 / 全部工具

评测类别

AI Agent - 信息收集评测对比

MiniMax M2与Qwen3-235B-A22B-Thinking、Kimi K2 0905、GLM-4.6等模型 · 1 项榜单 · 全部模式 / 全部工具

评测类别

写作和创作评测对比

MiniMax M2与Qwen3-235B-A22B-Thinking、Kimi K2 0905、GLM-4.6等模型 · 1 项榜单 · 全部模式 / 全部工具

评测类别

真实性评估评测对比

MiniMax M2与Qwen3-235B-A22B-Thinking、Kimi K2 0905、GLM-4.6等模型 · 1 项榜单 · 全部模式 / 全部工具

MiniMax M2与Qwen3-235B-A22B-Thinking、Kimi K2 0905、GLM-4.6等模型的API价格对比图 (文本输入/输出)

MiniMax M2与Qwen3-235B-A22B-Thinking、Kimi K2 0905、GLM-4.6等模型在各评测基准详细对比