MiniMax-M2.7 评测深度分析

本页面对 MiniMax-M2.7 的评测数据进行系统分析,涵盖综合推理、软件工程、Agent 能力、指令跟随、长上下文等多个维度,并提供与 Kimi K2.5、智谱 GLM-5 的横向对比,以及 M2 系列 M2.1、M2.5、M2.7 三代迭代数据对比。数据显示三者在 GPQA Diamond 等主流评测上差距在 3 分以内,处于同一竞争梯队,但 M2.7 的 API 输出定价约为 GLM-5 的 40%。

MiniMax-M2.7 是 MiniMaxAI(稀宇科技)于 2026 年 3 月 18 日发布的最新一代纯文本大语言模型,也是 M2 系列的第三次迭代。从发布节奏来看,M2 系列自 2025 年 12 月上线 M2.1 后,约每 6 至 8 周推出一个新版本,M2.5 于 2026 年 2 月发布,M2.7 间隔约 5 周跟进,整体属于快速迭代路线。

从评测数据整体看,M2.7 相对 M2.5 是一次有选择性的提升,而非全面的大幅跃升。多数指标有所改善,但也有个别维度出现小幅下滑,这一特征在后文会具体展开。


与同类竞品的定位比较

DataLearner 将 Kimi K2.5(月之暗面)和 GLM-5(智谱 AI)作为 M2.7 的横向参照模型。从综合评测数据来看,三者整体处于同一竞争层级。

GPQA Diamond 是一项针对研究生水平科学问题的综合推理基准,题目涵盖物理、化学、生物等学科的高难度问题,满分为 100。三者在该项得分分别为 M2.7(87)、Kimi K2.5(87.6)、GLM-5(86),差距不超过 2 分。Pinch Bench 是面向 Agent 综合执行能力的测试,M2.7 得 87.1,Kimi K2.5 得 84.8,GLM-5 得 86.4,同样在 3 分以内。从这两项可以看出,三者在主流评测上很难从单项得分判定绝对优劣。

值得注意的是定价差异。M2.7 的标准 API 输出定价为 $1.20 / 1M tokens,而 Kimi K2.5 为 $3.00、GLM-5 为 $3.20,后两者的输出价格约为 M2.7 的 2.5 至 2.7 倍。在性能处于同一梯队的前提下,这一价格差距在实际部署成本上是可感知的差异。

不过有一项数据需要单独说明:HLE(Humanity's Last Exam)是一项覆盖各学科顶尖难度的综合评测基准,题目由全球顶尖学者出题,整体通过率极低,满分 100 分对大多数模型而言分值普遍偏低。该项中 GLM-5 得分 50.40,显著高于 M2.7(28)和 Kimi K2.5(30.1)。但 GLM-5 在该项启用了工具调用,而另外两者未开启,测试条件不一致,因此这 20 余分的差距不能直接解读为纯粹的模型能力差距。


系列迭代:M2.1 → M2.5 → M2.7

纵观三代数据,SWE-Bench Pro(针对真实 GitHub 代码仓库的软件工程修复任务,要求模型在真实代码库中定位并解决问题)是 M2 系列提升最为显著的方向:M2.1 得分 32.6,M2.5 跃升至 55.4,M2.7 进一步微升至 56.2,三代累计提升约 23 分,且提升主要集中在 M2.1 到 M2.5 阶段,M2.7 的边际增量已十分有限。目前该项排名第 3 / 19,是 M2.7 在所有评测中相对位置最靠前的维度。

GPQA Diamond 呈现持续线性上升(81 → 85.2 → 87),HLE 则走出了一条折线:M2.1 得 22 分,M2.5 回落至 19.4,M2.7 反弹至 28,达到三代最高。这种非线性变化在迭代模型中并不罕见,但具体原因尚无公开说明。

最值得关注的波动发生在 τ²-Bench - Telecom 上。该基准专项测试模型在电信领域复杂 Agent 任务中的执行能力,M2.5 在该项得分 97.8,接近满分,而 M2.7 下滑至 85,环比降幅 12.8 分。与此同时,竞品 GLM-5 在该项得分 98.0。这意味着 M2.5 在电信 Agent 场景下与 GLM-5 基本持平,但 M2.7 拉开了约 13 分的差距,是本次迭代中最明显的退步。该变化是否与训练数据调整或优化目标取舍有关,目前没有来自官方的解释。

IF Bench 是专项测试模型对复杂指令的理解与遵循能力的基准,M2.1 和 M2.5 均停留在 70 分,M2.7 提升至 76,是 M2.5 → M2.7 阶段有实质增量的维度之一。GDPval-AA 评测生产力知识应用能力,提升幅度更大,从 M2.5 的 36 分升至 M2.7 的 50 分,是本次迭代环比增幅最大的单项。

AA-LCR 是针对长上下文场景下信息检索与理解能力的基准,M2.5 得分 69.5,M2.7 微降至 69.0,基本持平。


M2.7 的能力分布特征

综合所有维度的排名位置来看,M2.7 在软件工程(3/19)、指令跟随(5/27)、Terminal Bench Hard(5/13,针对终端操作与命令执行的高难度 Agent 评测)和长上下文(4/12)上的相对位置较靠前,而在综合推理难题 HLE(48/114)和电信 Agent τ²-Bench(23/34)上的排名则相对靠后。

这一分布表明 M2.7 目前在执行类、工程类任务上的竞争力强于宽泛难题的推理能力。但需说明,当前 DataLearner 收录的评测数据共 9 个基准,整体画像尚不完整,上述分布特征仅基于现有数据。


小结

M2.7 是 M2 系列的一次稳步迭代,整体性能较 M2.5 有所改善,在软件工程和指令跟随方向延续了上升趋势,但在电信 Agent 场景出现了相对明显的下滑。与 Kimi K2.5 和 GLM-5 相比,三者在主流评测上的差距普遍在 3 分以内,整体属于同一梯队,而 M2.7 在 API 定价上是三者中最显著的可量化差异,输出价格约为另外两者的 37%–40%。

评测结果

MiniMax-M2.7

评测结果

思考模式
工具使用

综合评估

共 3 项评测
评测名称 / 模式
得分
排名/总数
GPQA Diamond
思考模式
87
39 / 179
LiveBench
深度思考模式
63.49
56 / 115
HLE
思考模式
28
84 / 159

编程与软件工程

共 1 项评测
评测名称 / 模式
得分
排名/总数
SWE-Bench Pro - Public
思考模式工具
56.20
17 / 44

Agent能力评测

共 2 项评测
评测名称 / 模式
得分
排名/总数
τ²-Bench - Telecom
思考模式工具
85
24 / 35
Terminal Bench Hard
思考模式工具
39
5 / 13

指令跟随

共 1 项评测
评测名称 / 模式
得分
排名/总数
IF Bench
思考模式工具
76
5 / 29

生产力知识

共 1 项评测
评测名称 / 模式
得分
排名/总数
GDPval-AA
思考模式
50
13 / 21

长上下文能力

共 1 项评测
评测名称 / 模式
得分
排名/总数
AA-LCR
思考模式工具
69
4 / 13

OpenClaw智能体能力综合测评

共 2 项评测
评测名称 / 模式
得分
排名/总数
Claw Bench
思考模式工具
91.70
5 / 29
Pinch Bench
思考模式工具
87.10
9 / 37

竞品对比

MiniMax-M2.7 与同类主流模型的评测得分对比

MiniMax-M2.7Kimi K2.5GLM-5
评测类别:
柱状图按当前筛选范围内每个模型在各评测中的最高分展示;百分制评测使用原始高度,超出 0-100 的评测按该评测内相对比例缩放,标签仍保留原始分数。

11 项可对比评测得分汇总。每个模型展示最佳得分,模式在分数下方标注。

评测项MiniMax-M2.7当前Kimi K2.5GLM-5
GPQA Diamond
综合评估
87.00开启思考
--
86.00开启思考
HLE
综合评估
28.00开启思考
50.20开启思考 | 工具
50.40开启思考 | 工具
LiveBench
综合评估
63.49深度思考模式
69.07开启思考
--
SWE-Bench Pro - Public
编程与软件工程
56.20开启思考 | 工具
50.70开启思考 | 工具
--
Terminal Bench Hard
Agent能力评测
39.00开启思考 | 工具
--
43.00开启思考 | 工具
τ²-Bench - Telecom
Agent能力评测
85.00开启思考 | 工具
--
98.00开启思考 | 工具
IF Bench
指令跟随
76.00开启思考 | 工具
--
72.00开启思考 | 工具
GDPval-AA
生产力知识
50.00开启思考
--
46.00开启思考
AA-LCR
长上下文能力
69.00开启思考 | 工具
--
63.00开启思考
Claw Bench
OpenClaw智能体能力综合测评
91.70开启思考 | 工具
81.70开启思考 | 工具
91.70开启思考 | 工具
Pinch Bench
OpenClaw智能体能力综合测评
87.10开启思考 | 工具
84.80开启思考 | 工具
86.40开启思考 | 工具

MiniMax-M2.7 与同类模型的标准 API 价格对比

按模型并排展示标准文本输入价与输出价;若存在超长上下文加价,仅保留阈值内标准价,并在下方说明适用范围。

数据来源:DataLearnerAI,展示默认供应商的标准文本价格。 · USD / 1M tokens

模型供应商标准输入标准输出标准价适用于
MiniMax-M2.7
MiniMaxAI$0.3 / 1M tokens$1.2 / 1M tokens
GLM-5
智谱AI$1 / 1M tokens$3.2 / 1M tokens

历代版本对比

MiniMax-M2.7 系列各版本的评测成绩纵向对比

MiniMax-M2.7MiniMax M2.5M2.1
评测类别:
柱状图按当前筛选范围内每个模型在各评测中的最高分展示;百分制评测使用原始高度,超出 0-100 的评测按该评测内相对比例缩放,标签仍保留原始分数。

10 项可对比评测得分汇总。每个模型展示最佳得分,模式在分数下方标注。· 点击任意行可切换下方趋势图。

评测项MiniMax-M2.7当前MiniMax M2.5M2.1
GPQA Diamond
综合评估
87.00开启思考
85.20开启思考
81.00开启思考
HLE
综合评估
28.00开启思考
19.40开启思考
22.00开启思考
LiveBench
综合评估
63.49深度思考模式
60.14深度思考模式
--
SWE-Bench Pro - Public
编程与软件工程
56.20开启思考 | 工具
55.40开启思考 | 工具
32.60开启思考 | 工具
τ²-Bench - Telecom
Agent能力评测
85.00开启思考 | 工具
97.80开启思考 | 工具
87.00开启思考 | 工具
IF Bench
指令跟随
76.00开启思考 | 工具
70.00开启思考 | 工具
70.00开启思考 | 工具
GDPval-AA
生产力知识
50.00开启思考
36.00开启思考
--
AA-LCR
长上下文能力
69.00开启思考 | 工具
69.50开启思考
--
Claw Bench
OpenClaw智能体能力综合测评
91.70开启思考 | 工具
92.10开启思考 | 工具
--
Pinch Bench
OpenClaw智能体能力综合测评
87.10开启思考 | 工具
87.80开启思考 | 工具
84.30开启思考 | 工具

单评测历史趋势图

当前查看:GPQA Diamond · 综合评估

选择评测
常规常规 + 工具推理推理 + 工具深度推理深度推理 + 工具

横轴为模型与发布时间,纵轴为分数;同一模式会用实线串起版本变化,同代不同模式继续用虚线辅助对齐。

MiniMax-M2.7 所在系列的标准 API 价格对比

按模型并排展示标准文本输入价与输出价;若存在超长上下文加价,仅保留阈值内标准价,并在下方说明适用范围。

数据来源:DataLearnerAI,展示默认供应商的标准文本价格。 · USD / 1M tokens

模型供应商标准输入标准输出标准价适用于
MiniMax-M2.7
MiniMaxAI$0.3 / 1M tokens$1.2 / 1M tokens
MiniMax M2.5
MiniMaxAI$0.3 / 1M tokens$2.4 / 1M tokens

数据来源