DataLearner 标志DataLearnerAI
最新AI资讯
大模型评测
大模型列表
大模型对比
资源中心
工具
语言中文

加载中...

DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
页面导航
目录
大模型列表MiniMax M2.5评测分析
MiniMaxAI

MiniMax M2.5

MiniMaxAI
发布机构
MiniMaxAI
参数量
2290.0
上下文长度
128K
发布时间
2026/2/12
架构
Mixture of Experts (MoE)
激活参数
100B
GitHubHuggingFace论文
更新于 2026/4/5
1,113 次阅读
查看模型详情 →

MiniMax M2.5 评测深度分析

MiniMax M2.5 当前已收录的代表性评测结果包括 SWE-bench Verified(6 / 93,得分 80.20)、Pinch Bench(6 / 37,得分 87.80)、GPQA Diamond(34 / 162,得分 85.20)。本页还提供与 2 个竞品模型及 2 个前代或同系列模型的对比,在有数据时会展示性能和价格视图。并附有 1 个数据来源链接供参考。

MiniMax M2.5 模型评测分析报告

引言

本报告基于官方公告页面信息,对 MiniMax M2.5 模型进行分析。分析焦点为评测指标、基准测试以及来源材料中呈现的比较。数据来源于提供的基准测试和规格说明,无额外解读。

模型概述

MiniMax M2.5 模型于 2026 年 2 月 12 日发布。包括两个版本:MiniMax-M2.5 和 MiniMax-M2.5-Lightning。两个版本能力相同,但在推理速度上不同。模型在数十万个复杂真实世界环境中使用强化学习进行训练。距离 M2 和 M2.1 版本发布已有三个半月。

能力覆盖超过 10 种语言的编码、代理工具使用、搜索以及办公任务。编码支持完整开发生命周期阶段,包括系统设计、环境设置、开发、功能迭代、代码审查和测试。处理跨平台的完整栈项目,如 Web、Android、iOS 和 Windows。

在代理工具使用和搜索方面,模型在令牌使用超过最大上下文的 30% 时丢弃历史记录。使用并行工具调用减少运行时间。办公工作集成包括 Word、PowerPoint 和 Excel 技能,用户可创建专家组合这些技能。

性能基准测试

模型在多个基准测试中进行评估。结果在指定情况下为 3-4 次运行的平均值。

基准测试分数细节
SWE-Bench Verified80.2%比 M2.1 快 37%(22.8 分钟 vs. 31.3 分钟)。Droid 脚手架:79.7%。OpenCode 脚手架:76.1%。
Multi-SWE-Bench51.3%-
BrowseComp76.3%带上下文管理。比 M2.1 少用 20% 的搜索轮次。
VIBE-Pro与 Claude Opus 4.5 相当内部基准测试,使用 Claude Code 脚手架。
Terminal Bench 2使用修改进行测试Claude Code 2.0.64 脚手架,8 核 CPU/16GB 内存,7,200 秒超时。
RISE专家级搜索性能使用基于 Playwright 的浏览器工具。
GDPval-MM59.0% 平均胜率与主流模型的成对 LLM-as-a-judge 评估。
MEWC在 179 个问题上评估来自 2021–2026 年 Excel 竞赛问题。
财务建模按评分标准评分3 次运行的平均值。
AIME25 ~ AA-LCR内部测试来自 Artificial Analysis Intelligence Index 的公共数据集。

与其他模型的比较

比较基于提供的基准测试和成本指标。

  • 与 Claude Opus 4.6 比较:

    • SWE-Bench Verified 时间:22.8 分钟 (MiniMax M2.5) vs. 22.9 分钟。
    • Droid 脚手架:79.7% vs. 78.9%。
    • OpenCode 脚手架:76.1% vs. 75.9%。
    • 每个任务成本:Claude Opus 4.6 的 10%。
  • 与 Claude Opus 4.5 比较:在 VIBE-Pro 上相当。

  • 与 Opus、Gemini 3 Pro、GPT-5 等模型的通用成本比较:输出价格为 1/10 至 1/20。推理速度接近 2 倍(M2.5-Lightning 为 100 令牌/秒 vs. 其他前沿模型)。

效率和成本分析

推理速度为 M2.5-Lightning 的 100 令牌/秒和 M2.5 的 50 令牌/秒。每个 SWE-Bench 任务的令牌消耗为 3.52M(vs. M2.1 的 3.72M)。

成本结构:

  • M2.5-Lightning:每百万输入令牌 0.3 美元,每百万输出令牌 2.4 美元。
  • M2.5:M2.5-Lightning 成本的一半。
  • 以 100 令牌/秒连续运行:每小时 1 美元。
  • 以 50 令牌/秒连续运行:每小时 0.3 美元。
  • 四个实例全年连续运行:10,000 美元。

模型在两个版本中支持缓存。训练使用 Forge RL 框架,异步调度和树结构合并实现 40 倍加速,CISPO 算法用于稳定性,以及过程奖励机制。

部署和使用指标

模型部署在 MiniMax Agent 中。覆盖 MiniMax 公司日常任务的 30%,包括研发、产品、销售、人力资源和财务。公司 80% 的新代码由 M2.5 生成。预构建专家套件用于办公、财务和编程。

评测结果

MiniMax M2.5

评测结果

思考模式
全部思考
思考模式细分 (2)
全部默认 (开启)thinking
工具使用
全部使用工具不使用工具

编程与软件工程

共 2 项评测
评测名称 / 模式
得分
排名/总数
SWE-bench Verified
开启工具
80.20
6 / 93
SWE-Bench Pro - Public
开启工具
55.40
7 / 22

Agent能力评测

共 2 项评测
评测名称 / 模式
得分
排名/总数
τ²-Bench - Telecom
开启工具
97.80
9 / 33
Pinch Bench
开启工具
87.80
6 / 37

指令跟随

共 1 项评测
评测名称 / 模式
得分
排名/总数
IF Bench
开启工具
70
10 / 27

AI Agent - 信息收集

共 1 项评测
评测名称 / 模式
得分
排名/总数
BrowseComp
开启工具
76.30
8 / 33

AI Agent - 工具使用

共 1 项评测
评测名称 / 模式
得分
排名/总数
Terminal Bench 2.0
开启工具
51.70
14 / 28
与其他模型对比

竞品对比

MiniMax M2.5 与同类主流模型的评测得分对比

MiniMax M2.5(当前模型)GLM-5Kimi K2.5
评测类别:
MiniMax M2.5:
thinking
开启 + 工具
开启 + 工具
GLM-5:
thinking
thinking + 使用工具 + 工具
思考模式 + 工具
Kimi K2.5:
思考模式 + 工具
思考模式 + 工具
思考模式

评测得分对比

12 项可对比评测得分汇总

评测项MiniMax M2.5(本模型)GLM-5Kimi K2.5
GPQA Diamond
综合评估
85.20
thinking
86.00
thinking
87.60
思考模式(无工具)
HLE
综合评估
19.40
thinking
50.40
thinking + 使用工具
30.10
思考模式(无工具)
SWE-Bench Pro - Public
编程与软件工程
55.40
thinking + 使用工具
--
50.70
思考模式(工具)
SWE-bench Verified
编程与软件工程
80.20
thinking + 使用工具
77.80
thinking
76.80
思考模式(工具)
AIME2025
数学推理
86.30
thinking
--
96.10
思考模式(无工具)
Pinch Bench
Agent能力评测
87.80
思考模式(工具)
86.40
思考模式(工具)
84.80
思考模式(工具)
τ²-Bench - Telecom
Agent能力评测
97.80
thinking + 使用工具
98.00
thinking + 使用工具
--
IF Bench
指令跟随
70.00
thinking + 使用工具
72.00
thinking + 使用工具
--
BrowseComp
AI Agent - 信息收集
76.30
thinking + 使用工具
75.90
thinking + 使用工具
60.60
思考模式(工具+联网)
Terminal Bench 2.0
AI Agent - 工具使用
51.70
thinking + 使用工具
61.10
thinking + 使用工具
50.80
思考模式(工具)
GDPval-AA
生产力知识
36.00
thinking
46.00
thinking
40.00
思考模式(无工具)
AA-LCR
长上下文能力
69.50
thinking
63.00
thinking
65.00
思考模式(无工具)

MiniMax M2.5 与同类模型的标准 API 价格对比

按模型并排展示标准文本输入价与输出价;若存在超长上下文加价,仅保留阈值内标准价,并在下方说明适用范围。

数据来源:DataLearnerAI,展示默认供应商的标准文本价格。 · USD / 1M tokens

模型供应商标准输入标准输出标准价适用于
MiniMax M2.5
当前模型
MiniMaxAI$0.3 / 1M tokens$2.4 / 1M tokens—
GLM-5
智谱AI$1 / 1M tokens$3.2 / 1M tokens—
Kimi K2.5
—0.6 美元/100 万tokens3 美元/100 万tokens—

历代版本对比

MiniMax M2.5 系列各版本的评测成绩纵向对比

MiniMax M2.5(当前模型)MiniMax M2M2.1
评测类别:
MiniMax M2.5:
thinking
开启 + 工具
开启 + 工具
MiniMax M2:
thinking
thinking + 使用工具 + 工具
M2.1:
thinking
thinking + 使用工具 + 工具
思考模式 + 工具

评测得分对比

10 项可对比评测得分汇总

评测项MiniMax M2.5(本模型)MiniMax M2M2.1
GPQA Diamond
综合评估
85.20
thinking
78.00
thinking
81.00
thinking
HLE
综合评估
19.40
thinking
12.50
thinking
22.00
thinking
SWE-Bench Pro - Public
编程与软件工程
55.40
thinking + 使用工具
--
32.60
thinking + 使用工具
SWE-bench Verified
编程与软件工程
80.20
thinking + 使用工具
69.40
thinking + 使用工具
74.80
thinking
AIME2025
数学推理
86.30
thinking
78.00
thinking
81.00
thinking
Pinch Bench
Agent能力评测
87.80
思考模式(工具)
--
84.30
思考模式(工具)
τ²-Bench - Telecom
Agent能力评测
97.80
thinking + 使用工具
87.00
thinking + 使用工具
87.00
thinking + 使用工具
IF Bench
指令跟随
70.00
thinking + 使用工具
72.30
thinking
70.00
thinking + 使用工具
BrowseComp
AI Agent - 信息收集
76.30
thinking + 使用工具
44.00
thinking + 使用工具
47.40
thinking + 使用工具
Terminal Bench 2.0
AI Agent - 工具使用
51.70
thinking + 使用工具
--
47.90
thinking + 使用工具

MiniMax M2.5 所在系列的标准 API 价格对比

按模型并排展示标准文本输入价与输出价;若存在超长上下文加价,仅保留阈值内标准价,并在下方说明适用范围。

数据来源:DataLearnerAI,展示默认供应商的标准文本价格。 · USD / 1M tokens

模型供应商标准输入标准输出标准价适用于
MiniMax M2.5
当前模型
MiniMaxAI$0.3 / 1M tokens$2.4 / 1M tokens—
MiniMax M2
—0.3 美元/100万tokens1.2 美元/100万tokens—
M2.1
—0.3 美元/100 万tokens1.2 美元/100 万tokens—

系列版本评测总览

查看 MiniMax M2.5 系列各版本在主要评测上的整体得分,点击任意评测行可查看各推理模式的细分结果。

提示:点击任意分数单元格可切换下方关系图。

默认显示可比评测>60%(10/10)

评测项
MiniMax M22025/10/27
M2.12025/12/23
MiniMax M2.52026/2/12
综合评估
综合评估
编程与软件工程
编程与软件工程
数学推理
Agent能力评测
Agent能力评测
指令跟随
AI Agent - 信息收集
AI Agent - 工具使用

单评测模式关系图

当前查看:GPQA Diamond · 综合评估

选择评测
常规常规 + 工具推理推理 + 工具深度推理深度推理 + 工具

横轴为模型与发布时间,纵轴为分数;同代不同模式的散点以虚线连接。

数据来源

minimax.io