加载中...
加载中...
模式筛选
选择思考模式 / 工具使用 / 是否去除并行,更新下方柱状对比。
模型数据收集自官网、Artificial Analysis等页面
完整列出各模型/模式的评测得分,便于横向比较。
评测得分表格
直观查看各模型/模式在每个评测基准上的得分。
| 评测基准 | MI MiniMax M2MiniMaxAI | QW Qwen3-235B-A22B-Thinking阿里巴巴 | DE DeepSeek V3.2-ExpDeepSeek-AI | KI Kimi K2 0905Moonshot AI | GL GLM-4.6智谱AI | ||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 综合评估 | |||||||||||||
GPQA Diamond | — | 78.00 | — | 81.10 | 74.00 | — | 79.90 | — | — | — | 63.00 | 81.00 | 82.90 |
HLE | — | 12.50 | — | 18.20 | 8.60 | — | 19.80 | 20.30 | — | 21.70 | 5.20 | 17.20 | 30.40 |
LiveBench | 64.26 | 64.26 | — | 63.42 | 66.64 | — | 71.64 | — | — | — | 71.22 | 71.22 | — |
MMLU Pro | — | 82.00 | — | 84.40 | 84.00 | — | 85.00 | — | — | — | 78.00 | 83.00 | — |
| 编程与软件工程 | |||||||||||||
LiveCodeBench | — | 83.00 | — | 74.10 | 55.00 | — | 74.10 | — | — | — | 56.00 | 82.80 | 84.50 |
SWE-bench Verified | — | — | 69.40 | — | — | — | — | 67.80 | 69.20 | 69.20 | 68.00 | — | 68.00 |
| 数学推理 | |||||||||||||
AIME2025 | — | 78.00 | — | 92.30 | 58.00 | — | 89.30 | — | — | 75.20 | 44.00 | 98.60 | 98.60 |
| AI Agent - 工具使用 | |||||||||||||
Terminal-Bench | — | — | 24.00 | — | — | 23.00 | — | 37.70 | 44.50 | 44.50 | — | — | 40.50 |
| Agent能力评测 | |||||||||||||
τ²-Bench | — | — | 77.20 | — | — | — | — | 66.70 | — | — | — | — | 75.90 |
τ²-Bench - Telecom | — | — | 87.00 | — | — | 34.00 | — | 34.00 | — | — | — | — | 71.00 |
| 指令跟随 | |||||||||||||
IF Bench | — | 72.30 | — | — | — | — | 54.10 | — | — | — | — | 43.00 | — |
| AI Agent - 信息收集 | |||||||||||||
BrowseComp | — | — | 44.00 | — | — | — | — | 40.10 | — | — | — | — | 45.10 |
其他能力
是否 MoE、商业授权、模态支持等附加能力对比。
| 功能与规格 | MI MiniMax M2MiniMaxAI | QW Qwen3-235B-A22B-Thinking阿里巴巴 | DE DeepSeek V3.2-ExpDeepSeek-AI | KI Kimi K2 0905Moonshot AI | GL GLM-4.6智谱AI |
|---|---|---|---|---|---|
模型信息卡片 | |||||
开发机构 | MiniMaxAI | 阿里巴巴 | DeepSeek-AI | Moonshot AI | 智谱AI |
模型全名 | MiniMax-M2 | Qwen3-235B-A22B-Thinking-2507 | DeepSeek-V3.2-Exp | Kimi K2-Instruct-0905 | General Language Model - 4.6 |
模型简介 | 未提供 | 未提供 | 未提供 | 未提供 | 未提供 |
模型类型 | 聊天大模型 | 推理大模型 | 推理大模型 | 聊天大模型 | 聊天大模型 |
模型代号 | minimax-m2 | Qwen3-235B-A22B-Thinking-2507 | deepseek-v3-2-exp | kimi-k2-0905 | glm-4_6 |
发布时间 | 2025-10-27 | 2025-07-30 | 2025-09-29 | 2025-09-05 | 2025-09-30 |
MoE 架构 | 支持 | 支持 | 支持 | 支持 | 支持 |
规格与性能 | |||||
上下文 | 205K | 256K | 128K | 256K | 200K |
参数量 | 2300 | 305 | 6710 | 10000 | 3550 |
激活参数量 | 100 | 33 | 370 | 320 | 320 |
模型规模 | 100b | 34b | 100b | 100b | 100b |
模型大小 | 239.99 GB | 31.17GB | 1342GB | 1.01TB | 705.48 GB |
推理速度 | |||||
推理等级 | |||||
最大输出 | 未提供 | 16384 | 64000 | 4096 | 131072 |
支持模式 | 常规模式(Non-Thinking Mode)思考模式(Thinking Mode) | 思考模式(Thinking Mode) | 常规模式(Non-Thinking Mode)思考模式(Thinking Mode) | 常规模式(Non-Thinking Mode) | 常规模式(Non-Thinking Mode)思考模式(Thinking Mode) |
开源与许可 | |||||
代码开源 | 未开源 | 未提供 | 未开源 | 未开源 | 未开源 |
权重开源 | 未开源 | 未提供 | 未开源 | 未开源 | 未开源 |
商业授权 | 免费商用授权 | 免费商用授权 | 免费商用授权 | 免费商用授权 | 免费商用授权 |
模态支持 | |||||
文本 输入/输出 | / | / | / | / | / |
图片 输入/输出 | / | / | / | / | / |
音频 输入/输出 | / | / | / | / | / |
视频 输入/输出 | / | / | / | / | / |
Embedding 输入/输出 | / | / | / | / | / |
API 接口详情 | |||||
文本 价格 | 输入:0.3 美元/100万tokens输出:1.2 美元/100万tokens | 输入:0.2 美元/100 万tokens输出:2.4 美元/100 万tokens | 输入:0.28 美元 / 100万 tokens输出:0.42 美元 / 100万 tokens缓存价:0.028 美元 / 100万 tokens | 输入:0.60 美元/ 100 万tokens输出:2.5 美元/ 100 万tokens | 输入:0.6 美元/ 100 万 tokens输出:2.2 美元/ 100 万 tokens |
图片 价格 | 未提供 | 未提供 | 未提供 | 未提供 | 未提供 |
音频 价格 | 未提供 | 未提供 | 未提供 | 未提供 | 未提供 |
视频 价格 | 未提供 | 未提供 | 未提供 | 未提供 | 未提供 |
Embedding 价格 | 未提供 | 未提供 | 未提供 | 未提供 | 未提供 |
资源与链接 | |||||
GitHub | 仓库 | 仓库 | 仓库 | 未提供 | 仓库 |
Hugging Face | 模型页 | 模型页 | 模型页 | 模型页 | 模型页 |
官方页面 | 未提供 | 未提供 | 未提供 | 未提供 | 未提供 |
实用指南 | 未提供 | 未提供 | 未提供 | 未提供 | 未提供 |
论文/报告 | Qwen3: Think Deeper, Act Faster | DeepSeek-V3.2-Exp: Boosting Long-Context Efficiency with DeepSeek Sparse Attention | GLM-4.6: Advanced Agentic, Reasoning and Coding Capabilities | ||
DataLearnerAI 博客 | MiniMaxAI开源MiniMax M2模型:Artificial Analysis评测显示综合智能得分超过Claude Opus 4.1,开源第一,全球第五。 | 未提供 | 未提供 | Moonshot AI发布Kimi K2-Instruct-0905:256K上下文长度加持,全面升级的开放式智能体模型 | 未提供 |
API 价格
输入输出 token 价格并排展示