加载中...
加载中...
MiniMax M2.1 Preview
| 模态 | 输入 | 输出 |
|---|---|---|
| 文本 | $0.3 | $1.2 |
| 模态 | 输入 Cache | 输出 Cache |
|---|---|---|
| 文本 | $0.03 | $0.375 |
2025 年 12 月 23 日,MiniMax 发布 MiniMax M2.1,定位是“面向真实复杂任务”的新一代代码与 Agent 模型:不只更会写 Python,而是把 多语言工程、Web/App 交互与审美、以及办公场景的复合指令执行当成主战场来优化。minimax.io+1
这一版官方给出的自我对比很直白:M2 解决“成本与可用性”,M2.1 要解决“真实工作流里的复杂度”——语言更多、约束更多、链路更长、工具更多。minimax.io+1
如果只用一句话概括 M2.1 的方向:把模型从“写得像”推进到“跑得起来、交付得出、还能好看”。
官方的 Key Highlights 里,有几个点值得拆开看:
多语言优先,而不是 Python 优先。 M2.1 明确把 Rust/Java/Go/C++/Kotlin/ObjC/TS/JS 等作为系统性增强对象——这其实更贴近企业代码库的真实形态:核心服务 + 历史包袱 + 多端应用 + 脚本胶水。minimax.io+1
WebDev / AppDev 的“交互与审美”被当成能力目标。 这点很关键:过去很多 coding benchmark 只评“代码对不对”,但真实产品要的是页面结构、交互逻辑、组件状态、动画效果、甚至整体视觉风格的一致性。M2.1 把 Android/iOS 原生开发也单列出来,等于是把“端到端应用生成”从口号变成了优化项。minimax.io+1
复合指令约束(composite instruction constraints)与办公场景。 你可以把它理解成:模型要同时满足多条约束(格式、步骤、数据口径、工具调用顺序、输出结构),并在“边做边检查”中维持一致性。官方把这条和“Office 场景”绑定,背后其实是更 Agent 化的执行路径。minimax.io+1
MiniMax 的 API 文档里给了一个很明确的结构信息:230B 总参数、每次推理激活 10B。这基本坐实了它仍然是以 MoE / 稀疏激活为核心的效率路线。MiniMax API Docs
在使用侧,OpenRouter 的模型卡片显示 上下文 204,800 tokens,并把它描述为“面向 coding、agentic workflows、modern app development”的轻量 SOTA 模型。OpenRouter
这类结构的实际意义是:如果你的链路是 “写—跑—报错—修—再跑”,或者需要高并发做 review、refactor、生成测试,那么“每次只激活一小部分参数”通常更容易把 吞吐/延迟/成本压到一个可用区间。
M2.1 发布里最值得看的不是“又赢了谁”,而是他们自己提出了一个新 benchmark:VIBE(Visual & Interactive Benchmark for Execution)。
它想评的是:模型能否从零搭一个可运行应用,并在真实运行环境里通过交互逻辑与视觉效果的验证;并且它使用 Agent-as-a-Verifier (AaaV) 的方式做自动化评估。minimax.io
官方给出的 VIBE 成绩是:
为什么这类分数比传统“写代码 benchmark”更有解释力?因为它更接近你在 vibe coding / agentic engineering 里真正关心的东西:能不能在一个 runtime 里跑起来、并且结果能被验证。
一个很现实的判断方法是:看它是否快速进入主流工具链。
这类信号比“单次跑分截图”更重要:说明它正在被当成 可稳定上线的工作流模型,而不仅是“偶尔惊艳”。
这里给几个偏工程落地的用法建议(不追求花哨,追求能跑通):
A. 代码重构 / Review / 测试生成:让它吃“变更 + 约束”,别只吃“需求”。
M2.1 强调 refactoring、instruction constraints,你在提示词里最好把“不可改动的行为”“必须保留的接口”“测试必须通过”写成显式约束(并要求输出变更说明 + 风险点),它的优势才更容易体现。minimax.io+1
B. 端到端小应用:按“可运行产物”组织输出。
VIBE 的思路其实在提醒你:不要只让模型吐一段代码;要让它输出一个最小可运行工程(目录结构、依赖、启动命令、关键页面/路由、基础数据/mock),并在每轮迭代里固定验收标准。minimax.io+1
C. 多轮 Agent:尽量保留 reasoning / 中间态。
OpenRouter 的说明里有一句很“工程化”的提醒:多轮对话里要尽量保留 reasoning 信息(reasoning_details)以避免性能退化。哪怕你不用 OpenRouter,这个思路也成立:别丢掉中间状态,否则长链路任务会更容易漂。OpenRouter
官方在 How to Use 里明确写到:M2.1 API 已上线,并且 模型权重已开源,支持本地部署,推荐的推理框架包括 SGLang、vLLM,以及 MLX / KTransformers 等。minimax.io
对团队来说,这意味着两条路都能走:
要快就直接 API;要控成本/控数据/控延迟,就走本地部署。
M2.1 这次最清晰的信号是:coding 模型的竞争点正在从“写得更像”转向“交付得更完整”——多语言工程、端到端应用、工具链协作、以及可验证的执行闭环。
如果你过去评估 coding 模型只看“补全质量”,那 M2.1 值得你换一种评测方式:把任务写成一个可运行、可验收、可回归的工程流程,再看它在 10~50 次迭代里是否稳定。
欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送
