MiniMax M2.7 发布:模型开始帮自己训练自己
MiniMaxAI 刚刚发布了全新的 M2.7 模型,官方说本次发布的 M2.7 最大的特点是第一个深度参与迭代自身训练流程的模型,也就是说模型在训练过程中进行了自我分析并参与迭代。M2.7 已经可以在官网使用,接口价格不变。不过该模型当前并未宣布开源,还不确定未来情况。

关于 M2.7 开源情况、详细评测和其它模型对比,大家也可以关注 DataLearnerAI 的 MiniMax M2.7 模型信息卡:https://www.datalearner.com/ai-models/pretrained-models/minimax-m2-7
其实 M2.7 在正式发布前两天就已经在社区里传开了。3 月 16 日,有人在 X 上发现了它短暂出现在官方文档和 DesignArena 评测平台上,随后被迅速撤下,今天是正式官宣。
M2.7 模型自己帮助自己训练
这次发布最有意思的部分是 MiniMax 让 M2.7 参与了自身的训练过程。具体来说,他们用 M2.7 构建了强化学习训练流程里的数十个复杂 Skills,让模型负责监控实验、排查日志、修复代码、跑评测——研究员只在需要做关键决策的时候才介入。在这套流程下,M2.7 能承担整个研发工作流里大约 30–50% 的工作量。
他们还做了一个更具体的测试:让 M2.7 自主优化内部的软件工程脚手架,模型自己跑了超过 100 轮「分析失败 → 规划改动 → 修代码 → 跑评测 → 看结果 → 决定留还是回退」的循环,最终在内部评测上提升了 30%。
为了测模型自主优化能力的上限,MiniMax 还参加了 MLE Bench Lite 的测试,一共 22 个机器学习任务,每次给 24 小时自主迭代。三次测试平均得牌率 66.6%,最好的一次拿了 9 金 5 银 1 铜。给出的对比数据是:Claude Opus 4.6(75.7%)、GPT-5.4(71.2%)、Gemini 3.1(66.6%)。也就是说,这水平和 Gemini 3.1 Pro 差不多了。
M2.7 的评测结果
官方给出了 M2.7 的评测结果,部分评测和最先进的闭源模型很接近,相比较 M2.5,部分评测提升明显(根据 Artificial Analysis 的大模型智力索引,得分从 42 分提高到 50 分,提升约 20%)。其它评测数据如下:
官方比较强调 M2.7 在实际软件工程中的能力,举了一个生产环境故障排查的例子:模型面对真实的线上告警,能自己分析监控指标和部署时间线,连接数据库验证根因,甚至知道先用非阻塞建索引来止血,然后再提代码合并请求。基于 M2.7,他们已经多次把线上故障的恢复时间压到了三分钟以内。这是内部案例,没有独立第三方的复现数据。
不过也需要注意实际情况与测试的差异,上代 M2.5 就有过这个问题。有开发者在 Medium 写了一篇踩坑记录,实际在客户项目中用下来,遇到了模型反复生成相同内容卡在循环里的问题,更麻烦的是它会为了通过测试直接删掉相关判断条件。而OpenClaw创始人自己测试的不同模型在OpenClaw上的表现和差异也发现M2.5的实际表现弱于M2.1模,M2.7是否会修复目前还不清楚。

另外 M2.7 新增了原生的 Agent Teams 支持,也就是多个 AI 智能体分工协作完成任务,官方认为这种能力必须内化到模型本身,光靠提示词是做不到的。
M2.7 其它能力情况
除了软件工程外,MiniMaxAI 还强调 M2.7 模型在实际办公和娱乐中的能力。例如,官方展示了一个金融场景的完整演示:让 M2.7 读台积电年报和业绩沟通会纪要,交叉对比多篇研报,自己建营收预测模型,最后输出 PPT、Word 报告和 Excel 图表。据参与评估的金融从业者反馈,产出物可以直接作为初稿使用。
此外,这次 M2.7 还加强了人设保持和对话能力,官方的想法是让 Agentic 模型的使用场景从纯生产力拓展到互动娱乐。为此,MiniMax配套发布了一个叫 OpenRoom 的开源原型项目(github.com/MiniMax-AI/OpenRoom ),是一个 Web 界面的 AI 互动空间,AI 角色可以实时跟场景里的东西互动,产生视觉反馈。这个项目里大部分代码是 AI 写的,可以在 openroom.ai 直接体验。这个方向目前还是原型阶段,商业化怎么走暂时不清楚。
M2.7 模型发布总结
发布前,Linux.do 社区里有人觉得「2.7 估计跟 2.5 差别不太大」,也有人对发布节奏印象深刻——从 M2.5 到 M2.7 只用了两个月。从官方给出的评测数据来看,提升还是挺明显的。M2.5 在社区的实际使用评价不算好,特别是在 OpenClaw 场景中。
目前,M2.7 没有足够多的第三方独立评测,鉴于上代在实际使用中存在一些与跑分不符的问题,还是得等更多用户跑出真实反馈再说。希望本次升级是一个比较好的迭代吧。
M2.7 已全量上线,大家可以在官方页面体验,也可以直接接口使用。关于 M2.7 开源情况、详细评测和其它模型对比,大家也可以关注 DataLearnerAI 的 MiniMax M2.7 模型信息卡:https://www.datalearner.com/ai-models/pretrained-models/minimax-m2-7
