加载中...
加载中...
MiniMax-M2.7
数据优先来自官方发布(GitHub、Hugging Face、论文),其次为评测基准官方结果,最后为第三方评测机构数据。 了解数据收集方法
M2.7是MiniMaxAI在2026年3月18日发布的模型,也是业内首个深度参与自身训练流程的大语言模型。与以往模型不同,M2.7在训练过程中主动承担了强化学习流程中数十个复杂任务的构建,包括监控实验、排查日志、修复代码和运行评测,研究员仅在需要做关键决策时介入。官方数据显示,M2.7能承担整个研发工作流约30–50%的工作量。
M2.7最大的技术特点在于”模型训练模型”的闭环机制。MiniMax让M2.7在训练过程中自主优化内部的软件工程脚手架,模型自主执行了超过100轮完整的迭代循环,流程涵盖:
最终在内部评测中实现了30%的性能提升。这套机制使M2.7成为目前少数真正参与过自身训练迭代的商用大模型之一。
根据官方公布的数据,M2.7在多项基准测试中相较上代M2.5均有明显提升,部分指标已接近同期顶级闭源模型水平。Artificial Analysis大模型智力指数从42分提升至50分,涨幅约20%。
| 评测基准 | M2.7 | M2.5 | Gemini 3.1 Pro | Sonnet 4.6 | Opus 4.6 | GPT 5.4 |
|---|---|---|---|---|---|---|
| SWE Bench Pro | 56.2 | 55.4 | 54.2 | 57.2 | 57.3 | 57.7 |
| Multi-SWE Bench | 52.7 | 51.3 | — | 51.0 | 50.3 | 49.0 |
| VIBE-Pro | 55.6 | 54.2 | 41.0 | 56.1 | 55.6 | — |
| MLE-Bench Lite | 66.6 | 51.5 | 66.6 | 72.7 | 75.7 | 71.2 |
| GDPval-AA | 50 | 35 | 41 | 57 | 55 | 58 |
| Toolathlon | 46.3 | 38.3 | 48.8 | 44.8 | 47.2 | 54.6 |
| MM-ClawBench | 62.7 | 57.6 | 61.8 | 64.2 | 75.4 | 73.6 |
| Artificial Analysis | 50 | 42 | 57 | 52 | 53 | 57 |
在MLE-Bench Lite(22个机器学习任务,每次24小时自主迭代)中,M2.7三次测试平均得牌率66.6%,最佳成绩为9金5银1铜,与Gemini 3.1 Pro持平。
官方重点强调了M2.7在真实生产环境中的工程能力。在内部案例中,M2.7面对线上告警时可自主完成以下流程:
据官方介绍,基于M2.7已多次将线上故障恢复时间压缩至三分钟以内。需注意,上述案例均为内部数据,尚无独立第三方复现。
M2.7新增了原生的Agent Teams多智能体协作能力,支持多个AI智能体分工合作完成复杂任务。官方认为,这种能力必须内化到模型本身,单纯依靠提示词工程无法实现稳定的多智能体协作。
除软件工程外,M2.7在办公和娱乐场景也有所强化:
欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送
