DataLearner logoDataLearnerAI
Latest AI Insights
Model Evaluations
Model Directory
Model Comparison
Resource Center
Tools
LanguageEnglish

加载中...

DataLearner logoDataLearner AI

A knowledge platform focused on LLM benchmarking, datasets, and practical instruction with continuously updated capability maps.

Products

  • Leaderboards
  • Model comparison
  • Datasets

Resources

  • Tutorials
  • Editorial
  • Tool directory

Company

  • About
  • Privacy policy
  • Data methodology
  • Contact

© 2026 DataLearner AI. DataLearner curates industry data and case studies so researchers, enterprises, and developers can rely on trustworthy intelligence.

Privacy policyTerms of service
Page navigation
目录
Model catalogMiniMax M2.5Benchmark analysis
MiniMaxAI

MiniMax M2.5

MiniMaxAI
Organization
MiniMaxAI
Parameters
2290.0
Context Length
128K
Released
2/12/2026
Architecture
Mixture of Experts (MoE)
Active Params
100B
GitHubHuggingFacePaper
Updated 4/5/2026
1,114 views
View Model Details →

MiniMax M2.5 Benchmark Analysis

MiniMax M2.5 currently shows benchmark results led by SWE-bench Verified (6 / 93, score 80.20), Pinch Bench (6 / 37, score 87.80), GPQA Diamond (34 / 162, score 85.20). This page also compares it with 2 competitor models and 2 predecessor or same-series models, including performance and pricing views when available. 1 source link is attached for reference.

MiniMax M2.5 模型评测分析报告

引言

本报告基于官方公告页面信息,对 MiniMax M2.5 模型进行分析。分析焦点为评测指标、基准测试以及来源材料中呈现的比较。数据来源于提供的基准测试和规格说明,无额外解读。

模型概述

MiniMax M2.5 模型于 2026 年 2 月 12 日发布。包括两个版本:MiniMax-M2.5 和 MiniMax-M2.5-Lightning。两个版本能力相同,但在推理速度上不同。模型在数十万个复杂真实世界环境中使用强化学习进行训练。距离 M2 和 M2.1 版本发布已有三个半月。

能力覆盖超过 10 种语言的编码、代理工具使用、搜索以及办公任务。编码支持完整开发生命周期阶段,包括系统设计、环境设置、开发、功能迭代、代码审查和测试。处理跨平台的完整栈项目,如 Web、Android、iOS 和 Windows。

在代理工具使用和搜索方面,模型在令牌使用超过最大上下文的 30% 时丢弃历史记录。使用并行工具调用减少运行时间。办公工作集成包括 Word、PowerPoint 和 Excel 技能,用户可创建专家组合这些技能。

性能基准测试

模型在多个基准测试中进行评估。结果在指定情况下为 3-4 次运行的平均值。

基准测试分数细节
SWE-Bench Verified80.2%比 M2.1 快 37%(22.8 分钟 vs. 31.3 分钟)。Droid 脚手架:79.7%。OpenCode 脚手架:76.1%。
Multi-SWE-Bench51.3%-
BrowseComp76.3%带上下文管理。比 M2.1 少用 20% 的搜索轮次。
VIBE-Pro与 Claude Opus 4.5 相当内部基准测试,使用 Claude Code 脚手架。
Terminal Bench 2使用修改进行测试Claude Code 2.0.64 脚手架,8 核 CPU/16GB 内存,7,200 秒超时。
RISE专家级搜索性能使用基于 Playwright 的浏览器工具。
GDPval-MM59.0% 平均胜率与主流模型的成对 LLM-as-a-judge 评估。
MEWC在 179 个问题上评估来自 2021–2026 年 Excel 竞赛问题。
财务建模按评分标准评分3 次运行的平均值。
AIME25 ~ AA-LCR内部测试来自 Artificial Analysis Intelligence Index 的公共数据集。

与其他模型的比较

比较基于提供的基准测试和成本指标。

  • 与 Claude Opus 4.6 比较:

    • SWE-Bench Verified 时间:22.8 分钟 (MiniMax M2.5) vs. 22.9 分钟。
    • Droid 脚手架:79.7% vs. 78.9%。
    • OpenCode 脚手架:76.1% vs. 75.9%。
    • 每个任务成本:Claude Opus 4.6 的 10%。
  • 与 Claude Opus 4.5 比较:在 VIBE-Pro 上相当。

  • 与 Opus、Gemini 3 Pro、GPT-5 等模型的通用成本比较:输出价格为 1/10 至 1/20。推理速度接近 2 倍(M2.5-Lightning 为 100 令牌/秒 vs. 其他前沿模型)。

效率和成本分析

推理速度为 M2.5-Lightning 的 100 令牌/秒和 M2.5 的 50 令牌/秒。每个 SWE-Bench 任务的令牌消耗为 3.52M(vs. M2.1 的 3.72M)。

成本结构:

  • M2.5-Lightning:每百万输入令牌 0.3 美元,每百万输出令牌 2.4 美元。
  • M2.5:M2.5-Lightning 成本的一半。
  • 以 100 令牌/秒连续运行:每小时 1 美元。
  • 以 50 令牌/秒连续运行:每小时 0.3 美元。
  • 四个实例全年连续运行:10,000 美元。

模型在两个版本中支持缓存。训练使用 Forge RL 框架,异步调度和树结构合并实现 40 倍加速,CISPO 算法用于稳定性,以及过程奖励机制。

部署和使用指标

模型部署在 MiniMax Agent 中。覆盖 MiniMax 公司日常任务的 30%,包括研发、产品、销售、人力资源和财务。公司 80% 的新代码由 M2.5 生成。预构建专家套件用于办公、财务和编程。

Benchmark Results

MiniMax M2.5

Benchmark Results

Thinking
All modesThinking
Thinking mode details (2)
All thinking modesDefault (On)thinking
Tool usage
All modesWith toolsNo tools

编程与软件工程

2 evaluations
Benchmark / mode
Score
Rank/total
SWE-bench Verified
OnTools
80.20
6 / 93
SWE-Bench Pro - Public
OnTools
55.40
7 / 22

Agent能力评测

2 evaluations
Benchmark / mode
Score
Rank/total
τ²-Bench - Telecom
OnTools
97.80
9 / 33
Pinch Bench
OnTools
87.80
6 / 37

指令跟随

1 evaluations
Benchmark / mode
Score
Rank/total
IF Bench
OnTools
70
10 / 27

AI Agent - 信息收集

1 evaluations
Benchmark / mode
Score
Rank/total
BrowseComp
OnTools
76.30
8 / 33

AI Agent - 工具使用

1 evaluations
Benchmark / mode
Score
Rank/total
Terminal Bench 2.0
OnTools
51.70
14 / 28
Compare with other models

Competitor Comparison

Benchmark scores for MiniMax M2.5 compared against top models in its class

MiniMax M2.5(Current model)GLM-5Kimi K2.5
Benchmark categories:
MiniMax M2.5:
thinking
On + Tool
On + Tool
GLM-5:
thinking
thinking + 使用工具 + Tool
思考模式 + Tool
Kimi K2.5:
思考模式 + Tool
思考模式 + Tool
思考模式

Benchmark Score Comparison

12 benchmarks with comparable scores

BenchmarkMiniMax M2.5(This model)GLM-5Kimi K2.5
GPQA Diamond
综合评估
85.20
thinking
86.00
thinking
87.60
思考模式(无工具)
HLE
综合评估
19.40
thinking
50.40
thinking + 使用工具
30.10
思考模式(无工具)
SWE-Bench Pro - Public
编程与软件工程
55.40
thinking + 使用工具
--
50.70
思考模式(工具)
SWE-bench Verified
编程与软件工程
80.20
thinking + 使用工具
77.80
thinking
76.80
思考模式(工具)
AIME2025
数学推理
86.30
thinking
--
96.10
思考模式(无工具)
Pinch Bench
Agent能力评测
87.80
思考模式(工具)
86.40
思考模式(工具)
84.80
思考模式(工具)
τ²-Bench - Telecom
Agent能力评测
97.80
thinking + 使用工具
98.00
thinking + 使用工具
--
IF Bench
指令跟随
70.00
thinking + 使用工具
72.00
thinking + 使用工具
--
BrowseComp
AI Agent - 信息收集
76.30
thinking + 使用工具
75.90
thinking + 使用工具
60.60
思考模式(工具+联网)
Terminal Bench 2.0
AI Agent - 工具使用
51.70
thinking + 使用工具
61.10
thinking + 使用工具
50.80
思考模式(工具)
GDPval-AA
生产力知识
36.00
thinking
46.00
thinking
40.00
思考模式(无工具)
AA-LCR
长上下文能力
69.50
thinking
63.00
thinking
65.00
思考模式(无工具)

Standard API Pricing: MiniMax M2.5 vs. Peer Models

Shows standard text input and output pricing side by side for each model. If extended-context pricing exists, the chart keeps the base rate and explains the threshold below.

Source: DataLearnerAI. Standard text prices shown here use the default supplier. · USD / 1M tokens

ModelSupplierStandard inputStandard outputBase price applies to
MiniMax M2.5
Current model
MiniMaxAI$0.3 / 1M tokens$2.4 / 1M tokens—
GLM-5
智谱AI$1 / 1M tokens$3.2 / 1M tokens—
Kimi K2.5
—0.6 美元/100 万tokens3 美元/100 万tokens—

Version History

How each version of the MiniMax M2.5 series stacks up on benchmark tests

MiniMax M2.5(Current model)MiniMax M2M2.1
Benchmark categories:
MiniMax M2.5:
thinking
On + Tool
On + Tool
MiniMax M2:
thinking
thinking + 使用工具 + Tool
M2.1:
thinking
thinking + 使用工具 + Tool
思考模式 + Tool

Benchmark Score Comparison

10 benchmarks with comparable scores

BenchmarkMiniMax M2.5(This model)MiniMax M2M2.1
GPQA Diamond
综合评估
85.20
thinking
78.00
thinking
81.00
thinking
HLE
综合评估
19.40
thinking
12.50
thinking
22.00
thinking
SWE-Bench Pro - Public
编程与软件工程
55.40
thinking + 使用工具
--
32.60
thinking + 使用工具
SWE-bench Verified
编程与软件工程
80.20
thinking + 使用工具
69.40
thinking + 使用工具
74.80
thinking
AIME2025
数学推理
86.30
thinking
78.00
thinking
81.00
thinking
Pinch Bench
Agent能力评测
87.80
思考模式(工具)
--
84.30
思考模式(工具)
τ²-Bench - Telecom
Agent能力评测
97.80
thinking + 使用工具
87.00
thinking + 使用工具
87.00
thinking + 使用工具
IF Bench
指令跟随
70.00
thinking + 使用工具
72.30
thinking
70.00
thinking + 使用工具
BrowseComp
AI Agent - 信息收集
76.30
thinking + 使用工具
44.00
thinking + 使用工具
47.40
thinking + 使用工具
Terminal Bench 2.0
AI Agent - 工具使用
51.70
thinking + 使用工具
--
47.90
thinking + 使用工具

Standard API Pricing Across the MiniMax M2.5 Series

Shows standard text input and output pricing side by side for each model. If extended-context pricing exists, the chart keeps the base rate and explains the threshold below.

Source: DataLearnerAI. Standard text prices shown here use the default supplier. · USD / 1M tokens

ModelSupplierStandard inputStandard outputBase price applies to
MiniMax M2.5
Current model
MiniMaxAI$0.3 / 1M tokens$2.4 / 1M tokens—
MiniMax M2
—0.3 美元/100万tokens1.2 美元/100万tokens—
M2.1
—0.3 美元/100 万tokens1.2 美元/100 万tokens—

Series Overview

See how each version of the MiniMax M2.5 series performs across major benchmarks. Click any row to break down scores by reasoning mode.

Tip: click any score cell to switch the chart below.

Default view shows benchmarks with data coverage > 60% (10/10)

Benchmark
MiniMax M210/27/2025
M2.112/23/2025
MiniMax M2.52/12/2026
综合评估
综合评估
编程与软件工程
编程与软件工程
数学推理
Agent能力评测
Agent能力评测
指令跟随
AI Agent - 信息收集
AI Agent - 工具使用

Single-Benchmark Mode Relation

Viewing: GPQA Diamond · 综合评估

Benchmark
NormalNormal + ToolsThinkingThinking + ToolsDeepDeep + Tools

X-axis shows model and release date, Y-axis shows score; dotted lines connect modes within the same generation.

Sources

minimax.io