MiniMax M2.7 发布：模型开始帮自己训练自己

MiniMaxAI 刚刚发布了全新的 M2.7 模型，官方说本次发布的 M2.7 最大的特点是第一个深度参与迭代自身训练流程的模型，也就是说模型在训练过程中进行了自我分析并参与迭代。M2.7 已经可以在官网使用，接口价格不变。不过该模型当前并未宣布开源，还不确定未来情况。

关于 M2.7 开源情况、详细评测和其它模型对比，大家也可以关注 DataLearnerAI 的 MiniMax M2.7 模型信息卡：https://www.datalearner.com/ai-models/pretrained-models/minimax-m2-7

其实 M2.7 在正式发布前两天就已经在社区里传开了。3 月 16 日，有人在 X 上发现了它短暂出现在官方文档和 DesignArena 评测平台上，随后被迅速撤下，今天是正式官宣。

M2.7 模型自己帮助自己训练

这次发布最有意思的部分是 MiniMax 让 M2.7 参与了自身的训练过程。具体来说，他们用 M2.7 构建了强化学习训练流程里的数十个复杂 Skills，让模型负责监控实验、排查日志、修复代码、跑评测——研究员只在需要做关键决策的时候才介入。在这套流程下，M2.7 能承担整个研发工作流里大约 30–50% 的工作量。

他们还做了一个更具体的测试：让 M2.7 自主优化内部的软件工程脚手架，模型自己跑了超过 100 轮「分析失败 → 规划改动 → 修代码 → 跑评测 → 看结果 → 决定留还是回退」的循环，最终在内部评测上提升了 30%。

为了测模型自主优化能力的上限，MiniMax 还参加了 MLE Bench Lite 的测试，一共 22 个机器学习任务，每次给 24 小时自主迭代。三次测试平均得牌率 66.6%，最好的一次拿了 9 金 5 银 1 铜。给出的对比数据是：Claude Opus 4.6（75.7%）、GPT-5.4（71.2%）、Gemini 3.1（66.6%）。也就是说，这水平和 Gemini 3.1 Pro 差不多了。

M2.7 的评测结果

官方给出了 M2.7 的评测结果，部分评测和最先进的闭源模型很接近，相比较 M2.5，部分评测提升明显（根据 Artificial Analysis 的大模型智力索引，得分从 42 分提高到 50 分，提升约 20%）。其它评测数据如下：

评测基准 (Benchmark)	M2.7	M2.5	Gemini 3.1 Pro	Sonnet 4.6	Opus 4.6	GPT 5.4
SWE Bench Pro	56.2	55.4	54.2	57.2	57.3	57.7
Multi-SWE Bench	52.7	51.3	-	51	50.3	49
VIBE-Pro	55.6	54.2	41	56.1	55.6	-
MLE-Bench lite	66.6	51.5	66.6	72.7	75.7	71.2
GDPval-AA	50	35	41	57	55	58
Toolathlon	46.3	38.3	48.8	44.8	47.2	54.6
MM-ClawBench	62.7	57.6	61.8	64.2	75.4	73.6
Artificial Analysis	50	42	57	52	53	57

官方比较强调 M2.7 在实际软件工程中的能力，举了一个生产环境故障排查的例子：模型面对真实的线上告警，能自己分析监控指标和部署时间线，连接数据库验证根因，甚至知道先用非阻塞建索引来止血，然后再提代码合并请求。基于 M2.7，他们已经多次把线上故障的恢复时间压到了三分钟以内。这是内部案例，没有独立第三方的复现数据。

不过也需要注意实际情况与测试的差异，上代 M2.5 就有过这个问题。有开发者在 Medium 写了一篇踩坑记录，实际在客户项目中用下来，遇到了模型反复生成相同内容卡在循环里的问题，更麻烦的是它会为了通过测试直接删掉相关判断条件。而OpenClaw创始人自己测试的不同模型在OpenClaw上的表现和差异也发现M2.5的实际表现弱于M2.1模，M2.7是否会修复目前还不清楚。

另外 M2.7 新增了原生的 Agent Teams 支持，也就是多个 AI 智能体分工协作完成任务，官方认为这种能力必须内化到模型本身，光靠提示词是做不到的。

M2.7 其它能力情况

除了软件工程外，MiniMaxAI 还强调 M2.7 模型在实际办公和娱乐中的能力。例如，官方展示了一个金融场景的完整演示：让 M2.7 读台积电年报和业绩沟通会纪要，交叉对比多篇研报，自己建营收预测模型，最后输出 PPT、Word 报告和 Excel 图表。据参与评估的金融从业者反馈，产出物可以直接作为初稿使用。

此外，这次 M2.7 还加强了人设保持和对话能力，官方的想法是让 Agentic 模型的使用场景从纯生产力拓展到互动娱乐。为此，MiniMax配套发布了一个叫 OpenRoom 的开源原型项目（github.com/MiniMax-AI/OpenRoom ），是一个 Web 界面的 AI 互动空间，AI 角色可以实时跟场景里的东西互动，产生视觉反馈。这个项目里大部分代码是 AI 写的，可以在 openroom.ai 直接体验。这个方向目前还是原型阶段，商业化怎么走暂时不清楚。

M2.7 模型发布总结

发布前，Linux.do 社区里有人觉得「2.7 估计跟 2.5 差别不太大」，也有人对发布节奏印象深刻——从 M2.5 到 M2.7 只用了两个月。从官方给出的评测数据来看，提升还是挺明显的。M2.5 在社区的实际使用评价不算好，特别是在 OpenClaw 场景中。

目前，M2.7 没有足够多的第三方独立评测，鉴于上代在实际使用中存在一些与跑分不符的问题，还是得等更多用户跑出真实反馈再说。希望本次升级是一个比较好的迭代吧。

M2.7 已全量上线，大家可以在官方页面体验，也可以直接接口使用。关于 M2.7 开源情况、详细评测和其它模型对比，大家也可以关注 DataLearnerAI 的 MiniMax M2.7 模型信息卡：https://www.datalearner.com/ai-models/pretrained-models/minimax-m2-7

M2.7 模型自己帮助自己训练

M2.7 的评测结果

M2.7 其它能力情况

M2.7 模型发布总结

DataLearner WeChat