MiniMax-M2.7 评测深度分析

本页面对 MiniMax-M2.7 的评测数据进行系统分析，涵盖综合推理、软件工程、Agent 能力、指令跟随、长上下文等多个维度，并提供与 Kimi K2.5、智谱 GLM-5 的横向对比，以及 M2 系列 M2.1、M2.5、M2.7 三代迭代数据对比。数据显示三者在 GPQA Diamond 等主流评测上差距在 3 分以内，处于同一竞争梯队，但 M2.7 的 API 输出定价约为 GLM-5 的 40%。

MiniMax-M2.7 是 MiniMaxAI（稀宇科技）于 2026 年 3 月 18 日发布的最新一代纯文本大语言模型，也是 M2 系列的第三次迭代。从发布节奏来看，M2 系列自 2025 年 12 月上线 M2.1 后，约每 6 至 8 周推出一个新版本，M2.5 于 2026 年 2 月发布，M2.7 间隔约 5 周跟进，整体属于快速迭代路线。

从评测数据整体看，M2.7 相对 M2.5 是一次有选择性的提升，而非全面的大幅跃升。多数指标有所改善，但也有个别维度出现小幅下滑，这一特征在后文会具体展开。

与同类竞品的定位比较

DataLearner 将 Kimi K2.5（月之暗面）和 GLM-5（智谱 AI）作为 M2.7 的横向参照模型。从综合评测数据来看，三者整体处于同一竞争层级。

GPQA Diamond 是一项针对研究生水平科学问题的综合推理基准，题目涵盖物理、化学、生物等学科的高难度问题，满分为 100。三者在该项得分分别为 M2.7（87）、Kimi K2.5（87.6）、GLM-5（86），差距不超过 2 分。Pinch Bench 是面向 Agent 综合执行能力的测试，M2.7 得 87.1，Kimi K2.5 得 84.8，GLM-5 得 86.4，同样在 3 分以内。从这两项可以看出，三者在主流评测上很难从单项得分判定绝对优劣。

值得注意的是定价差异。M2.7 的标准 API 输出定价为 $1.20 / 1M tokens，而 Kimi K2.5 为 $3.00、GLM-5 为 $3.20，后两者的输出价格约为 M2.7 的 2.5 至 2.7 倍。在性能处于同一梯队的前提下，这一价格差距在实际部署成本上是可感知的差异。

不过有一项数据需要单独说明：HLE（Humanity's Last Exam）是一项覆盖各学科顶尖难度的综合评测基准，题目由全球顶尖学者出题，整体通过率极低，满分 100 分对大多数模型而言分值普遍偏低。该项中 GLM-5 得分 50.40，显著高于 M2.7（28）和 Kimi K2.5（30.1）。但 GLM-5 在该项启用了工具调用，而另外两者未开启，测试条件不一致，因此这 20 余分的差距不能直接解读为纯粹的模型能力差距。

系列迭代：M2.1 → M2.5 → M2.7

纵观三代数据，SWE-Bench Pro（针对真实 GitHub 代码仓库的软件工程修复任务，要求模型在真实代码库中定位并解决问题）是 M2 系列提升最为显著的方向：M2.1 得分 32.6，M2.5 跃升至 55.4，M2.7 进一步微升至 56.2，三代累计提升约 23 分，且提升主要集中在 M2.1 到 M2.5 阶段，M2.7 的边际增量已十分有限。目前该项排名第 3 / 19，是 M2.7 在所有评测中相对位置最靠前的维度。

GPQA Diamond 呈现持续线性上升（81 → 85.2 → 87），HLE 则走出了一条折线：M2.1 得 22 分，M2.5 回落至 19.4，M2.7 反弹至 28，达到三代最高。这种非线性变化在迭代模型中并不罕见，但具体原因尚无公开说明。

最值得关注的波动发生在 τ²-Bench - Telecom 上。该基准专项测试模型在电信领域复杂 Agent 任务中的执行能力，M2.5 在该项得分 97.8，接近满分，而 M2.7 下滑至 85，环比降幅 12.8 分。与此同时，竞品 GLM-5 在该项得分 98.0。这意味着 M2.5 在电信 Agent 场景下与 GLM-5 基本持平，但 M2.7 拉开了约 13 分的差距，是本次迭代中最明显的退步。该变化是否与训练数据调整或优化目标取舍有关，目前没有来自官方的解释。

IF Bench 是专项测试模型对复杂指令的理解与遵循能力的基准，M2.1 和 M2.5 均停留在 70 分，M2.7 提升至 76，是 M2.5 → M2.7 阶段有实质增量的维度之一。GDPval-AA 评测生产力知识应用能力，提升幅度更大，从 M2.5 的 36 分升至 M2.7 的 50 分，是本次迭代环比增幅最大的单项。

AA-LCR 是针对长上下文场景下信息检索与理解能力的基准，M2.5 得分 69.5，M2.7 微降至 69.0，基本持平。

M2.7 的能力分布特征

综合所有维度的排名位置来看，M2.7 在软件工程（3/19）、指令跟随（5/27）、Terminal Bench Hard（5/13，针对终端操作与命令执行的高难度 Agent 评测）和长上下文（4/12）上的相对位置较靠前，而在综合推理难题 HLE（48/114）和电信 Agent τ²-Bench（23/34）上的排名则相对靠后。

这一分布表明 M2.7 目前在执行类、工程类任务上的竞争力强于宽泛难题的推理能力。但需说明，当前 DataLearner 收录的评测数据共 9 个基准，整体画像尚不完整，上述分布特征仅基于现有数据。

小结

M2.7 是 M2 系列的一次稳步迭代，整体性能较 M2.5 有所改善，在软件工程和指令跟随方向延续了上升趋势，但在电信 Agent 场景出现了相对明显的下滑。与 Kimi K2.5 和 GLM-5 相比，三者在主流评测上的差距普遍在 3 分以内，整体属于同一梯队，而 M2.7 在 API 定价上是三者中最显著的可量化差异，输出价格约为另外两者的 37%–40%。

评测结果

MiniMax-M2.7

评测结果

综合评估

共 3 项评测

评测名称 / 模式

得分

排名/总数

GPQA Diamond

思考模式

39 / 179

LiveBench

深度思考模式

63.49

56 / 115

HLE

思考模式

84 / 159

编程与软件工程

共 1 项评测

评测名称 / 模式

得分

排名/总数

SWE-Bench Pro - Public

思考模式工具

56.20

17 / 44

Agent能力评测

共 2 项评测

评测名称 / 模式

得分

排名/总数

τ²-Bench - Telecom

思考模式工具

24 / 35

Terminal Bench Hard

思考模式工具

5 / 13

指令跟随

共 1 项评测

评测名称 / 模式

得分

排名/总数

IF Bench

思考模式工具

5 / 29

生产力知识

共 1 项评测

评测名称 / 模式

得分

排名/总数

GDPval-AA

思考模式

13 / 21

长上下文能力

共 1 项评测

评测名称 / 模式

得分

排名/总数

AA-LCR

思考模式工具

4 / 13

OpenClaw智能体能力综合测评

共 2 项评测

评测名称 / 模式

得分

排名/总数

Claw Bench

思考模式工具

91.70

5 / 29

Pinch Bench

思考模式工具

87.10

9 / 37

与其他模型对比

竞品对比

MiniMax-M2.7 与同类主流模型的评测得分对比

评测类别:

柱状图按当前筛选范围内每个模型在各评测中的最高分展示；百分制评测使用原始高度，超出 0-100 的评测按该评测内相对比例缩放，标签仍保留原始分数。

11 项可对比评测得分汇总。每个模型展示最佳得分，模式在分数下方标注。

评测项	MiniMax-M2.7当前	Kimi K2.5	GLM-5
GPQA Diamond 综合评估	87.00开启思考	--	86.00开启思考
HLE 综合评估	28.00开启思考	50.20开启思考｜工具	50.40开启思考｜工具
LiveBench 综合评估	63.49深度思考模式	69.07开启思考	--
SWE-Bench Pro - Public 编程与软件工程	56.20开启思考｜工具	50.70开启思考｜工具	--
Terminal Bench Hard Agent能力评测	39.00开启思考｜工具	--	43.00开启思考｜工具
τ²-Bench - Telecom Agent能力评测	85.00开启思考｜工具	--	98.00开启思考｜工具
IF Bench 指令跟随	76.00开启思考｜工具	--	72.00开启思考｜工具
GDPval-AA 生产力知识	50.00开启思考	--	46.00开启思考
AA-LCR 长上下文能力	69.00开启思考｜工具	--	63.00开启思考
Claw Bench OpenClaw智能体能力综合测评	91.70开启思考｜工具	81.70开启思考｜工具	91.70开启思考｜工具
Pinch Bench OpenClaw智能体能力综合测评	87.10开启思考｜工具	84.80开启思考｜工具	86.40开启思考｜工具

MiniMax-M2.7 与同类模型的标准 API 价格对比

按模型并排展示标准文本输入价与输出价；若存在超长上下文加价，仅保留阈值内标准价，并在下方说明适用范围。

数据来源：DataLearnerAI，展示默认供应商的标准文本价格。 · USD / 1M tokens

模型	供应商	标准输入	标准输出	标准价适用于
MiniMax-M2.7	MiniMaxAI	$0.3 / 1M tokens	$1.2 / 1M tokens	—
GLM-5	智谱AI	$1 / 1M tokens	$3.2 / 1M tokens	—

历代版本对比

MiniMax-M2.7 系列各版本的评测成绩纵向对比

评测类别:

10 项可对比评测得分汇总。每个模型展示最佳得分，模式在分数下方标注。· 点击任意行可切换下方趋势图。

评测项	MiniMax-M2.7当前	MiniMax M2.5	M2.1
GPQA Diamond 综合评估	87.00开启思考	85.20开启思考	81.00开启思考
HLE 综合评估	28.00开启思考	19.40开启思考	22.00开启思考
LiveBench 综合评估	63.49深度思考模式	60.14深度思考模式	--
SWE-Bench Pro - Public 编程与软件工程	56.20开启思考｜工具	55.40开启思考｜工具	32.60开启思考｜工具
τ²-Bench - Telecom Agent能力评测	85.00开启思考｜工具	97.80开启思考｜工具	87.00开启思考｜工具
IF Bench 指令跟随	76.00开启思考｜工具	70.00开启思考｜工具	70.00开启思考｜工具
GDPval-AA 生产力知识	50.00开启思考	36.00开启思考	--
AA-LCR 长上下文能力	69.00开启思考｜工具	69.50开启思考	--
Claw Bench OpenClaw智能体能力综合测评	91.70开启思考｜工具	92.10开启思考｜工具	--
Pinch Bench OpenClaw智能体能力综合测评	87.10开启思考｜工具	87.80开启思考｜工具	84.30开启思考｜工具

单评测历史趋势图

当前查看：GPQA Diamond · 综合评估

选择评测

常规常规 + 工具推理推理 + 工具深度推理深度推理 + 工具

横轴为模型与发布时间，纵轴为分数；同一模式会用实线串起版本变化，同代不同模式继续用虚线辅助对齐。

MiniMax-M2.7 所在系列的标准 API 价格对比

按模型并排展示标准文本输入价与输出价；若存在超长上下文加价，仅保留阈值内标准价，并在下方说明适用范围。

数据来源：DataLearnerAI，展示默认供应商的标准文本价格。 · USD / 1M tokens

模型	供应商	标准输入	标准输出	标准价适用于
MiniMax-M2.7	MiniMaxAI	$0.3 / 1M tokens	$1.2 / 1M tokens	—
MiniMax M2.5	MiniMaxAI	$0.3 / 1M tokens	$2.4 / 1M tokens	—