MiniMax M2.5 评测深度分析

MiniMax M2.5 模型评测分析报告

引言

本报告基于官方公告页面信息，对 MiniMax M2.5 模型进行分析。分析焦点为评测指标、基准测试以及来源材料中呈现的比较。数据来源于提供的基准测试和规格说明，无额外解读。

模型概述

MiniMax M2.5 模型于 2026 年 2 月 12 日发布。包括两个版本：MiniMax-M2.5 和 MiniMax-M2.5-Lightning。两个版本能力相同，但在推理速度上不同。模型在数十万个复杂真实世界环境中使用强化学习进行训练。距离 M2 和 M2.1 版本发布已有三个半月。

能力覆盖超过 10 种语言的编码、代理工具使用、搜索以及办公任务。编码支持完整开发生命周期阶段，包括系统设计、环境设置、开发、功能迭代、代码审查和测试。处理跨平台的完整栈项目，如 Web、Android、iOS 和 Windows。

在代理工具使用和搜索方面，模型在令牌使用超过最大上下文的 30% 时丢弃历史记录。使用并行工具调用减少运行时间。办公工作集成包括 Word、PowerPoint 和 Excel 技能，用户可创建专家组合这些技能。

性能基准测试

模型在多个基准测试中进行评估。结果在指定情况下为 3-4 次运行的平均值。

基准测试	分数	细节
SWE-Bench Verified	80.2%	比 M2.1 快 37%（22.8 分钟 vs. 31.3 分钟）。Droid 脚手架：79.7%。OpenCode 脚手架：76.1%。
Multi-SWE-Bench	51.3%	-
BrowseComp	76.3%	带上下文管理。比 M2.1 少用 20% 的搜索轮次。
VIBE-Pro	与 Claude Opus 4.5 相当	内部基准测试，使用 Claude Code 脚手架。
Terminal Bench 2	使用修改进行测试	Claude Code 2.0.64 脚手架，8 核 CPU/16GB 内存，7,200 秒超时。
RISE	专家级搜索性能	使用基于 Playwright 的浏览器工具。
GDPval-MM	59.0% 平均胜率	与主流模型的成对 LLM-as-a-judge 评估。
MEWC	在 179 个问题上评估	来自 2021–2026 年 Excel 竞赛问题。
财务建模	按评分标准评分	3 次运行的平均值。
AIME25 ~ AA-LCR	内部测试	来自 Artificial Analysis Intelligence Index 的公共数据集。

与其他模型的比较

比较基于提供的基准测试和成本指标。

与 Claude Opus 4.6 比较：
- SWE-Bench Verified 时间：22.8 分钟 (MiniMax M2.5) vs. 22.9 分钟。
- Droid 脚手架：79.7% vs. 78.9%。
- OpenCode 脚手架：76.1% vs. 75.9%。
- 每个任务成本：Claude Opus 4.6 的 10%。
与 Claude Opus 4.5 比较：在 VIBE-Pro 上相当。
与 Opus、Gemini 3 Pro、GPT-5 等模型的通用成本比较：输出价格为 1/10 至 1/20。推理速度接近 2 倍（M2.5-Lightning 为 100 令牌/秒 vs. 其他前沿模型）。

效率和成本分析

推理速度为 M2.5-Lightning 的 100 令牌/秒和 M2.5 的 50 令牌/秒。每个 SWE-Bench 任务的令牌消耗为 3.52M（vs. M2.1 的 3.72M）。

成本结构：

M2.5-Lightning：每百万输入令牌 0.3 美元，每百万输出令牌 2.4 美元。
M2.5：M2.5-Lightning 成本的一半。
以 100 令牌/秒连续运行：每小时 1 美元。
以 50 令牌/秒连续运行：每小时 0.3 美元。
四个实例全年连续运行：10,000 美元。

模型在两个版本中支持缓存。训练使用 Forge RL 框架，异步调度和树结构合并实现 40 倍加速，CISPO 算法用于稳定性，以及过程奖励机制。

部署和使用指标

模型部署在 MiniMax Agent 中。覆盖 MiniMax 公司日常任务的 30%，包括研发、产品、销售、人力资源和财务。公司 80% 的新代码由 M2.5 生成。预构建专家套件用于办公、财务和编程。

MiniMax M2.5 评测深度分析

MiniMax M2.5 模型评测分析报告

引言

模型概述

性能基准测试

与其他模型的比较

效率和成本分析

部署和使用指标

评测数据

评测得分

综合评估

编程与软件工程

数学推理

Agent能力评测

指令跟随

AI Agent - 信息收集

AI Agent - 工具使用

生产力知识

长上下文能力

与竞争模型对比

与前代模型对比

参考来源