DataLearner 标志DataLearnerAI
最新AI资讯
大模型评测
大模型列表
大模型对比
资源中心
Tools

加载中...

DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
目录
目录
  1. 首页/
  2. 博客列表/
  3. 博客详情

MiniMax M2.7 发布:模型开始帮自己训练自己

2026/03/18 16:23:31
252 阅读
MiniMaxAIMiniMaxM2.7

MiniMaxAI 刚刚发布了全新的 M2.7 模型,官方说本次发布的 M2.7 最大的特点是第一个深度参与迭代自身训练流程的模型,也就是说模型在训练过程中进行了自我分析并参与迭代。M2.7 已经可以在官网使用,接口价格不变。不过该模型当前并未宣布开源,还不确定未来情况。

关于 M2.7 开源情况、详细评测和其它模型对比,大家也可以关注 DataLearnerAI 的 MiniMax M2.7 模型信息卡:https://www.datalearner.com/ai-models/pretrained-models/minimax-m2-7

其实 M2.7 在正式发布前两天就已经在社区里传开了。3 月 16 日,有人在 X 上发现了它短暂出现在官方文档和 DesignArena 评测平台上,随后被迅速撤下,今天是正式官宣。

M2.7 模型自己帮助自己训练

这次发布最有意思的部分是 MiniMax 让 M2.7 参与了自身的训练过程。具体来说,他们用 M2.7 构建了强化学习训练流程里的数十个复杂 Skills,让模型负责监控实验、排查日志、修复代码、跑评测——研究员只在需要做关键决策的时候才介入。在这套流程下,M2.7 能承担整个研发工作流里大约 30–50% 的工作量。

他们还做了一个更具体的测试:让 M2.7 自主优化内部的软件工程脚手架,模型自己跑了超过 100 轮「分析失败 → 规划改动 → 修代码 → 跑评测 → 看结果 → 决定留还是回退」的循环,最终在内部评测上提升了 30%。

为了测模型自主优化能力的上限,MiniMax 还参加了 MLE Bench Lite 的测试,一共 22 个机器学习任务,每次给 24 小时自主迭代。三次测试平均得牌率 66.6%,最好的一次拿了 9 金 5 银 1 铜。给出的对比数据是:Claude Opus 4.6(75.7%)、GPT-5.4(71.2%)、Gemini 3.1(66.6%)。也就是说,这水平和 Gemini 3.1 Pro 差不多了。

M2.7 的评测结果

官方给出了 M2.7 的评测结果,部分评测和最先进的闭源模型很接近,相比较 M2.5,部分评测提升明显(根据 Artificial Analysis 的大模型智力索引,得分从 42 分提高到 50 分,提升约 20%)。其它评测数据如下:

评测基准 (Benchmark)M2.7M2.5Gemini 3.1 ProSonnet 4.6Opus 4.6GPT 5.4
SWE Bench Pro56.255.454.257.257.357.7
Multi-SWE Bench52.751.3-5150.349
VIBE-Pro55.654.24156.155.6-
MLE-Bench lite66.651.566.672.775.771.2
GDPval-AA503541575558
Toolathlon46.338.348.844.847.254.6
MM-ClawBench62.757.661.864.275.473.6
Artificial Analysis504257525357

官方比较强调 M2.7 在实际软件工程中的能力,举了一个生产环境故障排查的例子:模型面对真实的线上告警,能自己分析监控指标和部署时间线,连接数据库验证根因,甚至知道先用非阻塞建索引来止血,然后再提代码合并请求。基于 M2.7,他们已经多次把线上故障的恢复时间压到了三分钟以内。这是内部案例,没有独立第三方的复现数据。

不过也需要注意实际情况与测试的差异,上代 M2.5 就有过这个问题。有开发者在 Medium 写了一篇踩坑记录,实际在客户项目中用下来,遇到了模型反复生成相同内容卡在循环里的问题,更麻烦的是它会为了通过测试直接删掉相关判断条件。而OpenClaw创始人自己测试的不同模型在OpenClaw上的表现和差异也发现M2.5的实际表现弱于M2.1模,M2.7是否会修复目前还不清楚。

另外 M2.7 新增了原生的 Agent Teams 支持,也就是多个 AI 智能体分工协作完成任务,官方认为这种能力必须内化到模型本身,光靠提示词是做不到的。

M2.7 其它能力情况

除了软件工程外,MiniMaxAI 还强调 M2.7 模型在实际办公和娱乐中的能力。例如,官方展示了一个金融场景的完整演示:让 M2.7 读台积电年报和业绩沟通会纪要,交叉对比多篇研报,自己建营收预测模型,最后输出 PPT、Word 报告和 Excel 图表。据参与评估的金融从业者反馈,产出物可以直接作为初稿使用。

此外,这次 M2.7 还加强了人设保持和对话能力,官方的想法是让 Agentic 模型的使用场景从纯生产力拓展到互动娱乐。为此,MiniMax配套发布了一个叫 OpenRoom 的开源原型项目(github.com/MiniMax-AI/OpenRoom ),是一个 Web 界面的 AI 互动空间,AI 角色可以实时跟场景里的东西互动,产生视觉反馈。这个项目里大部分代码是 AI 写的,可以在 openroom.ai 直接体验。这个方向目前还是原型阶段,商业化怎么走暂时不清楚。

M2.7 模型发布总结

发布前,Linux.do 社区里有人觉得「2.7 估计跟 2.5 差别不太大」,也有人对发布节奏印象深刻——从 M2.5 到 M2.7 只用了两个月。从官方给出的评测数据来看,提升还是挺明显的。M2.5 在社区的实际使用评价不算好,特别是在 OpenClaw 场景中。

目前,M2.7 没有足够多的第三方独立评测,鉴于上代在实际使用中存在一些与跑分不符的问题,还是得等更多用户跑出真实反馈再说。希望本次升级是一个比较好的迭代吧。

M2.7 已全量上线,大家可以在官方页面体验,也可以直接接口使用。关于 M2.7 开源情况、详细评测和其它模型对比,大家也可以关注 DataLearnerAI 的 MiniMax M2.7 模型信息卡:https://www.datalearner.com/ai-models/pretrained-models/minimax-m2-7

DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码
返回博客列表

热门博客

  • 1Dirichlet Distribution(狄利克雷分布)与Dirichlet Process(狄利克雷过程)
  • 2回归模型中的交互项简介(Interactions in Regression)
  • 3贝塔分布(Beta Distribution)简介及其应用
  • 4矩母函数简介(Moment-generating function)
  • 5普通最小二乘法(Ordinary Least Squares,OLS)的详细推导过程
  • 6使用R语言进行K-means聚类并分析结果
  • 7深度学习技巧之Early Stopping(早停法)
  • 8手把手教你本地部署清华大学的ChatGLM-6B模型——Windows+6GB显卡本地部署