MiniMax M2.5 评测深度分析

MiniMax M2.5 当前已收录的代表性评测结果包括 SWE-bench Verified(13 / 108,得分 80.20)、Claw Bench(4 / 29,得分 92.10)、Pinch Bench(6 / 37,得分 87.80)。本页还提供与 2 个竞品模型及 2 个前代或同系列模型的对比,在有数据时会展示性能和价格视图。并附有 2 个数据来源链接供参考。

MiniMax M2.5 模型评测分析报告

引言

本报告基于官方公告页面信息,对 MiniMax M2.5 模型进行分析。分析焦点为评测指标、基准测试以及来源材料中呈现的比较。数据来源于提供的基准测试和规格说明,无额外解读。

模型概述

MiniMax M2.5 模型于 2026 年 2 月 12 日发布。包括两个版本:MiniMax-M2.5 和 MiniMax-M2.5-Lightning。两个版本能力相同,但在推理速度上不同。模型在数十万个复杂真实世界环境中使用强化学习进行训练。距离 M2 和 M2.1 版本发布已有三个半月。

能力覆盖超过 10 种语言的编码、代理工具使用、搜索以及办公任务。编码支持完整开发生命周期阶段,包括系统设计、环境设置、开发、功能迭代、代码审查和测试。处理跨平台的完整栈项目,如 Web、Android、iOS 和 Windows。

在代理工具使用和搜索方面,模型在令牌使用超过最大上下文的 30% 时丢弃历史记录。使用并行工具调用减少运行时间。办公工作集成包括 Word、PowerPoint 和 Excel 技能,用户可创建专家组合这些技能。

性能基准测试

模型在多个基准测试中进行评估。结果在指定情况下为 3-4 次运行的平均值。

基准测试分数细节
SWE-Bench Verified80.2%比 M2.1 快 37%(22.8 分钟 vs. 31.3 分钟)。Droid 脚手架:79.7%。OpenCode 脚手架:76.1%。
Multi-SWE-Bench51.3%-
BrowseComp76.3%带上下文管理。比 M2.1 少用 20% 的搜索轮次。
VIBE-Pro与 Claude Opus 4.5 相当内部基准测试,使用 Claude Code 脚手架。
Terminal Bench 2使用修改进行测试Claude Code 2.0.64 脚手架,8 核 CPU/16GB 内存,7,200 秒超时。
RISE专家级搜索性能使用基于 Playwright 的浏览器工具。
GDPval-MM59.0% 平均胜率与主流模型的成对 LLM-as-a-judge 评估。
MEWC在 179 个问题上评估来自 2021–2026 年 Excel 竞赛问题。
财务建模按评分标准评分3 次运行的平均值。
AIME25 ~ AA-LCR内部测试来自 Artificial Analysis Intelligence Index 的公共数据集。

与其他模型的比较

比较基于提供的基准测试和成本指标。

  • 与 Claude Opus 4.6 比较:

    • SWE-Bench Verified 时间:22.8 分钟 (MiniMax M2.5) vs. 22.9 分钟。
    • Droid 脚手架:79.7% vs. 78.9%。
    • OpenCode 脚手架:76.1% vs. 75.9%。
    • 每个任务成本:Claude Opus 4.6 的 10%。
  • 与 Claude Opus 4.5 比较:在 VIBE-Pro 上相当。

  • 与 Opus、Gemini 3 Pro、GPT-5 等模型的通用成本比较:输出价格为 1/10 至 1/20。推理速度接近 2 倍(M2.5-Lightning 为 100 令牌/秒 vs. 其他前沿模型)。

效率和成本分析

推理速度为 M2.5-Lightning 的 100 令牌/秒和 M2.5 的 50 令牌/秒。每个 SWE-Bench 任务的令牌消耗为 3.52M(vs. M2.1 的 3.72M)。

成本结构:

  • M2.5-Lightning:每百万输入令牌 0.3 美元,每百万输出令牌 2.4 美元。
  • M2.5:M2.5-Lightning 成本的一半。
  • 以 100 令牌/秒连续运行:每小时 1 美元。
  • 以 50 令牌/秒连续运行:每小时 0.3 美元。
  • 四个实例全年连续运行:10,000 美元。

模型在两个版本中支持缓存。训练使用 Forge RL 框架,异步调度和树结构合并实现 40 倍加速,CISPO 算法用于稳定性,以及过程奖励机制。

部署和使用指标

模型部署在 MiniMax Agent 中。覆盖 MiniMax 公司日常任务的 30%,包括研发、产品、销售、人力资源和财务。公司 80% 的新代码由 M2.5 生成。预构建专家套件用于办公、财务和编程。

评测结果

MiniMax M2.5

评测结果

思考模式
工具使用

综合评估

共 5 项评测
评测名称 / 模式
得分
排名/总数
GPQA Diamond
思考模式
85.20
49 / 179
ARC-AGI
思考模式
63.70
32 / 65
LiveBench
深度思考模式
60.14
68 / 115
HLE
思考模式
19.40
110 / 161
ARC-AGI-2
思考模式
4.90
44 / 59

编程与软件工程

共 2 项评测
评测名称 / 模式
得分
排名/总数

数学推理

共 1 项评测
评测名称 / 模式
得分
排名/总数
AIME2025
思考模式
86.30
48 / 106

Agent能力评测

共 1 项评测
评测名称 / 模式
得分
排名/总数

指令跟随

共 1 项评测
评测名称 / 模式
得分
排名/总数
70
12 / 29

AI Agent - 信息收集

共 1 项评测
评测名称 / 模式
得分
排名/总数
76.30
19 / 46

AI Agent - 工具使用

共 1 项评测
评测名称 / 模式
得分
排名/总数
51.70
30 / 46

生产力知识

共 1 项评测
评测名称 / 模式
得分
排名/总数
GDPval-AA
思考模式
36
17 / 21

长上下文能力

共 1 项评测
评测名称 / 模式
得分
排名/总数
AA-LCR
思考模式
69.50
3 / 13

OpenClaw智能体能力综合测评

共 2 项评测
评测名称 / 模式
得分
排名/总数
Claw Bench
思考模式工具
92.10
4 / 29
Pinch Bench
思考模式工具
87.80
6 / 37

竞品对比

MiniMax M2.5 与同类主流模型的评测得分对比

MiniMax M2.5GLM-5Kimi K2.5
评测类别:
柱状图按当前筛选范围内每个模型在各评测中的最高分展示;百分制评测使用原始高度,超出 0-100 的评测按该评测内相对比例缩放,标签仍保留原始分数。

12 项可对比评测得分汇总。每个模型展示最佳得分,模式在分数下方标注。

评测项MiniMax M2.5当前GLM-5Kimi K2.5
ARC-AGI
综合评估
63.70开启思考
44.70开启思考
--
ARC-AGI-2
综合评估
4.90开启思考
4.90开启思考
--
GPQA Diamond
综合评估
85.20开启思考
86.00开启思考
--
HLE
综合评估
19.40开启思考
50.40开启思考 | 工具
50.20开启思考 | 工具
LiveBench
综合评估
60.14深度思考模式
--
69.07开启思考
SWE-Bench Pro - Public
编程与软件工程
55.40开启思考 | 工具
--
50.70开启思考 | 工具
SWE-bench Verified
编程与软件工程
80.20开启思考 | 工具
77.80开启思考
76.80开启思考 | 工具
τ²-Bench - Telecom
Agent能力评测
97.80开启思考 | 工具
98.00开启思考 | 工具
--
IF Bench
指令跟随
70.00开启思考 | 工具
72.00开启思考 | 工具
--
BrowseComp
AI Agent - 信息收集
76.30开启思考 | 工具
75.90开启思考 | 工具
60.60开启思考 | 工具
Terminal Bench 2.0
AI Agent - 工具使用
51.70开启思考 | 工具
61.10开启思考 | 工具
50.80开启思考 | 工具
GDPval-AA
生产力知识
36.00开启思考
46.00开启思考
--
其余 3 个 benchmark 仍可在上方图表中查看。

MiniMax M2.5 与同类模型的标准 API 价格对比

按模型并排展示标准文本输入价与输出价;若存在超长上下文加价,仅保留阈值内标准价,并在下方说明适用范围。

数据来源:DataLearnerAI,展示默认供应商的标准文本价格。 · USD / 1M tokens

模型供应商标准输入标准输出标准价适用于
MiniMax M2.5
MiniMaxAI$0.3 / 1M tokens$2.4 / 1M tokens
GLM-5
智谱AI$1 / 1M tokens$3.2 / 1M tokens

历代版本对比

MiniMax M2.5 系列各版本的评测成绩纵向对比

MiniMax M2.5MiniMax M2M2.1
评测类别:
柱状图按当前筛选范围内每个模型在各评测中的最高分展示;百分制评测使用原始高度,超出 0-100 的评测按该评测内相对比例缩放,标签仍保留原始分数。

10 项可对比评测得分汇总。每个模型展示最佳得分,模式在分数下方标注。· 点击任意行可切换下方趋势图。

评测项MiniMax M2.5当前MiniMax M2M2.1
GPQA Diamond
综合评估
85.20开启思考
78.00开启思考
81.00开启思考
HLE
综合评估
19.40开启思考
12.50开启思考
22.00开启思考
SWE-Bench Pro - Public
编程与软件工程
55.40开启思考 | 工具
--
32.60开启思考 | 工具
SWE-bench Verified
编程与软件工程
80.20开启思考 | 工具
69.40开启思考 | 工具
74.80开启思考
AIME2025
数学推理
86.30开启思考
78.00开启思考
81.00开启思考
τ²-Bench - Telecom
Agent能力评测
97.80开启思考 | 工具
87.00开启思考 | 工具
87.00开启思考 | 工具
IF Bench
指令跟随
70.00开启思考 | 工具
72.30开启思考
70.00开启思考 | 工具
BrowseComp
AI Agent - 信息收集
76.30开启思考 | 工具
44.00开启思考 | 工具
47.40开启思考 | 工具
Terminal Bench 2.0
AI Agent - 工具使用
51.70开启思考 | 工具
--
47.90开启思考 | 工具
Pinch Bench
OpenClaw智能体能力综合测评
87.80开启思考 | 工具
--
84.30开启思考 | 工具

单评测历史趋势图

当前查看:GPQA Diamond · 综合评估

选择评测
常规常规 + 工具推理推理 + 工具深度推理深度推理 + 工具

横轴为模型与发布时间,纵轴为分数;同一模式会用实线串起版本变化,同代不同模式继续用虚线辅助对齐。

MiniMax M2.5 所在系列的标准 API 价格对比

按模型并排展示标准文本输入价与输出价;若存在超长上下文加价,仅保留阈值内标准价,并在下方说明适用范围。

数据来源:DataLearnerAI,展示默认供应商的标准文本价格。 · USD / 1M tokens

模型供应商标准输入标准输出标准价适用于
MiniMax M2.5
MiniMaxAI$0.3 / 1M tokens$2.4 / 1M tokens

数据来源