加载中...

M2.1

Name: MiniMax M2.1 Preview
Availability: InStock
Author: MiniMaxAI

MiniMax M2.1 Preview

发布时间: 2025-12-231,446

在线体验 GitHub Hugging Face Compare

模型参数

2300.0亿

上下文长度

200K

中文支持

支持

推理能力

数据优先来自官方发布（GitHub、Hugging Face、论文），其次为评测基准官方结果，最后为第三方评测机构数据。了解数据收集方法

M2.1

模型基本信息

推理过程

支持

思考模式

不思考 (Non-Thinking)

上下文长度

200K tokens

最大输出长度

131072 tokens

模型类型

暂无数据

发布时间

2025-12-23

模型文件大小

暂无数据

MoE架构

是

总参数 / 激活参数

2300.0 亿 / 100 亿

知识截止

暂无数据

M2.1

开源和体验地址

代码开源状态

MIT License

预训练权重开源

Modified MIT- 免费商用授权

GitHub 源码

https://github.com/MiniMax-AI/MiniMax-M2

Hugging Face

https://huggingface.co/MiniMaxAI/MiniMax-M2.1

在线体验

https://agent.minimax.io/

M2.1

官方介绍与博客

官方论文

MiniMax M2.1: Significantly Enhanced Multi-Language Programming, Built for Real-World Complex Tasks

DataLearnerAI博客

暂无介绍博客

M2.1

API接口信息

接口速度

3/5

💡默认单位：$/100万 tokens。若计费单位不同，则以供应商公开的原始标注为准。

标准计费Standard

模态	输入	输出
文本	$0.3	$1.2

缓存计费Cache

模态	输入 Cache	输出 Cache
文本	$0.03	$0.375

M2.1

评测结果

综合评估

共 3 项评测

评测名称 / 模式

得分

排名/总数

MMLU Pro

常规

4 / 114

GPQA Diamond

常规

53 / 161

HLE

常规

57 / 115

编程与软件工程

共 2 项评测

评测名称 / 模式

得分

排名/总数

SWE-bench Verified

常规

74.80

24 / 92

SWE-Bench Pro - Public

常规

32.60

16 / 17

数学推理

共 1 项评测

评测名称 / 模式

得分

排名/总数

AIME2025

常规

57 / 108

Agent能力评测

共 2 项评测

评测名称 / 模式

得分

排名/总数

τ²-Bench - Telecom

常规

21 / 34

Aider-Polyglot

常规

17 / 26

指令跟随

共 1 项评测

评测名称 / 模式

得分

排名/总数

IF Bench

常规

8 / 27

AI Agent - 信息收集

共 1 项评测

评测名称 / 模式

得分

排名/总数

BrowseComp

常规

47.40

26 / 34

AI Agent - 工具使用

共 1 项评测

评测名称 / 模式

得分

排名/总数

Terminal Bench 2.0

常规

47.90

19 / 26

查看评测深度分析与其他模型对比

M2.1

发布机构

MiniMaxAI

查看发布机构详情

MiniMax M2.1 Preview

模型解读

2025 年 12 月 23 日，MiniMax 发布 MiniMax M2.1，定位是“面向真实复杂任务”的新一代代码与 Agent 模型：不只更会写 Python，而是把 多语言工程、Web/App 交互与审美、以及办公场景的复合指令执行当成主战场来优化。minimax.io+1

这一版官方给出的自我对比很直白：M2 解决“成本与可用性”，M2.1 要解决“真实工作流里的复杂度”——语言更多、约束更多、链路更长、工具更多。minimax.io+1

1）它到底“升级”在哪：从单点 coding 到全链路交付

如果只用一句话概括 M2.1 的方向：把模型从“写得像”推进到“跑得起来、交付得出、还能好看”。

官方的 Key Highlights 里，有几个点值得拆开看：

多语言优先，而不是 Python 优先。 M2.1 明确把 Rust/Java/Go/C++/Kotlin/ObjC/TS/JS 等作为系统性增强对象——这其实更贴近企业代码库的真实形态：核心服务 + 历史包袱 + 多端应用 + 脚本胶水。minimax.io+1

WebDev / AppDev 的“交互与审美”被当成能力目标。 这点很关键：过去很多 coding benchmark 只评“代码对不对”，但真实产品要的是页面结构、交互逻辑、组件状态、动画效果、甚至整体视觉风格的一致性。M2.1 把 Android/iOS 原生开发也单列出来，等于是把“端到端应用生成”从口号变成了优化项。minimax.io+1

复合指令约束（composite instruction constraints）与办公场景。 你可以把它理解成：模型要同时满足多条约束（格式、步骤、数据口径、工具调用顺序、输出结构），并在“边做边检查”中维持一致性。官方把这条和“Office 场景”绑定，背后其实是更 Agent 化的执行路径。minimax.io+1

2）参数与形态：为什么它仍然强调“轻量”和“激活参数”

MiniMax 的 API 文档里给了一个很明确的结构信息：230B 总参数、每次推理激活 10B。这基本坐实了它仍然是以 MoE / 稀疏激活为核心的效率路线。MiniMax API Docs

在使用侧，OpenRouter 的模型卡片显示 上下文 204,800 tokens，并把它描述为“面向 coding、agentic workflows、modern app development”的轻量 SOTA 模型。OpenRouter

这类结构的实际意义是：如果你的链路是 “写—跑—报错—修—再跑”，或者需要高并发做 review、refactor、生成测试，那么“每次只激活一小部分参数”通常更容易把 吞吐/延迟/成本压到一个可用区间。

3）评测信号：VIBE 这种 benchmark 为什么值得关注？

M2.1 发布里最值得看的不是“又赢了谁”，而是他们自己提出了一个新 benchmark：VIBE（Visual & Interactive Benchmark for Execution）。

它想评的是：模型能否从零搭一个可运行应用，并在真实运行环境里通过交互逻辑与视觉效果的验证；并且它使用 Agent-as-a-Verifier (AaaV) 的方式做自动化评估。minimax.io

官方给出的 VIBE 成绩是：

VIBE 总分：88.6
VIBE-Web：91.5
VIBE-Android：89.7 minimax.io

为什么这类分数比传统“写代码 benchmark”更有解释力？因为它更接近你在 vibe coding / agentic engineering 里真正关心的东西：能不能在一个 runtime 里跑起来、并且结果能被验证。

4）“生态位”变化：它开始被当作 IDE / 工具链的默认大脑

一个很现实的判断方法是：看它是否快速进入主流工具链。

Vercel AI Gateway 在 2025-12-22 的 changelog 里提到 M2.1 已接入（对很多前端/全栈团队来说，这意味着接入成本显著降低）。Vercel
Kilo 也同步宣布可用，并给了偏“日常开发场景”的试用描述（创建/调试/扩展/文档四类任务）。blog.kilo.ai

这类信号比“单次跑分截图”更重要：说明它正在被当成 可稳定上线的工作流模型，而不仅是“偶尔惊艳”。

5）怎么用：把 M2.1 放进你的默认链路

这里给几个偏工程落地的用法建议（不追求花哨，追求能跑通）：

A. 代码重构 / Review / 测试生成：让它吃“变更 + 约束”，别只吃“需求”。

M2.1 强调 refactoring、instruction constraints，你在提示词里最好把“不可改动的行为”“必须保留的接口”“测试必须通过”写成显式约束（并要求输出变更说明 + 风险点），它的优势才更容易体现。minimax.io+1

B. 端到端小应用：按“可运行产物”组织输出。

VIBE 的思路其实在提醒你：不要只让模型吐一段代码；要让它输出一个最小可运行工程（目录结构、依赖、启动命令、关键页面/路由、基础数据/mock），并在每轮迭代里固定验收标准。minimax.io+1

C. 多轮 Agent：尽量保留 reasoning / 中间态。

OpenRouter 的说明里有一句很“工程化”的提醒：多轮对话里要尽量保留 reasoning 信息（reasoning_details）以避免性能退化。哪怕你不用 OpenRouter，这个思路也成立：别丢掉中间状态，否则长链路任务会更容易漂。OpenRouter

6）开放与部署：这次仍然强调“可本地化”

官方在 How to Use 里明确写到：M2.1 API 已上线，并且 模型权重已开源，支持本地部署，推荐的推理框架包括 SGLang、vLLM，以及 MLX / KTransformers 等。minimax.io

对团队来说，这意味着两条路都能走：

要快就直接 API；要控成本/控数据/控延迟，就走本地部署。

怎么看 M2.1 的“关键价值”

M2.1 这次最清晰的信号是：coding 模型的竞争点正在从“写得更像”转向“交付得更完整”——多语言工程、端到端应用、工具链协作、以及可验证的执行闭环。

如果你过去评估 coding 模型只看“补全质量”，那 M2.1 值得你换一种评测方式：把任务写成一个可运行、可验收、可回归的工程流程，再看它在 10～50 次迭代里是否稳定。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信，获得最新 AI 技术推送

加载中...

M2.1

MiniMax M2.1 Preview

发布时间: 2025-12-231,446

在线体验 GitHub Hugging Face Compare

模型参数

2300.0亿

上下文长度

200K

中文支持

支持

推理能力

数据优先来自官方发布（GitHub、Hugging Face、论文），其次为评测基准官方结果，最后为第三方评测机构数据。了解数据收集方法

M2.1

模型基本信息

推理过程

支持

思考模式

不思考 (Non-Thinking)

上下文长度

200K tokens

最大输出长度

131072 tokens

模型类型

暂无数据

发布时间

2025-12-23

模型文件大小

暂无数据

MoE架构

是

总参数 / 激活参数

2300.0 亿 / 100 亿

知识截止

暂无数据

M2.1

开源和体验地址

代码开源状态

MIT License

预训练权重开源

Modified MIT- 免费商用授权

GitHub 源码

https://github.com/MiniMax-AI/MiniMax-M2

Hugging Face

https://huggingface.co/MiniMaxAI/MiniMax-M2.1

在线体验

https://agent.minimax.io/

M2.1

官方介绍与博客

官方论文

MiniMax M2.1: Significantly Enhanced Multi-Language Programming, Built for Real-World Complex Tasks

DataLearnerAI博客

暂无介绍博客

M2.1

API接口信息

接口速度

3/5

💡默认单位：$/100万 tokens。若计费单位不同，则以供应商公开的原始标注为准。

标准计费Standard

模态	输入	输出
文本	$0.3	$1.2

缓存计费Cache

模态	输入 Cache	输出 Cache
文本	$0.03	$0.375

M2.1

评测结果

综合评估

共 3 项评测

评测名称 / 模式

得分

排名/总数

MMLU Pro

常规

4 / 114

GPQA Diamond

常规

53 / 161

HLE

常规

57 / 115

编程与软件工程

共 2 项评测

评测名称 / 模式

得分

排名/总数

SWE-bench Verified

常规

74.80

24 / 92

SWE-Bench Pro - Public

常规

32.60

16 / 17

数学推理

共 1 项评测

评测名称 / 模式

得分

排名/总数

AIME2025

常规

57 / 108

Agent能力评测

共 2 项评测

评测名称 / 模式

得分

排名/总数

τ²-Bench - Telecom

常规

21 / 34

Aider-Polyglot

常规

17 / 26

指令跟随

共 1 项评测

评测名称 / 模式

得分

排名/总数

IF Bench

常规

8 / 27

AI Agent - 信息收集

共 1 项评测

评测名称 / 模式

得分

排名/总数

BrowseComp

常规

47.40

26 / 34

AI Agent - 工具使用

共 1 项评测

评测名称 / 模式

得分

排名/总数

Terminal Bench 2.0

常规

47.90

19 / 26

查看评测深度分析与其他模型对比

M2.1

发布机构

MiniMaxAI

查看发布机构详情

MiniMax M2.1 Preview

模型解读

1）它到底“升级”在哪：从单点 coding 到全链路交付

如果只用一句话概括 M2.1 的方向：把模型从“写得像”推进到“跑得起来、交付得出、还能好看”。

官方的 Key Highlights 里，有几个点值得拆开看：

2）参数与形态：为什么它仍然强调“轻量”和“激活参数”

在使用侧，OpenRouter 的模型卡片显示 上下文 204,800 tokens，并把它描述为“面向 coding、agentic workflows、modern app development”的轻量 SOTA 模型。OpenRouter

3）评测信号：VIBE 这种 benchmark 为什么值得关注？

M2.1 发布里最值得看的不是“又赢了谁”，而是他们自己提出了一个新 benchmark：VIBE（Visual & Interactive Benchmark for Execution）。

官方给出的 VIBE 成绩是：

VIBE 总分：88.6
VIBE-Web：91.5
VIBE-Android：89.7 minimax.io

4）“生态位”变化：它开始被当作 IDE / 工具链的默认大脑

一个很现实的判断方法是：看它是否快速进入主流工具链。

Vercel AI Gateway 在 2025-12-22 的 changelog 里提到 M2.1 已接入（对很多前端/全栈团队来说，这意味着接入成本显著降低）。Vercel
Kilo 也同步宣布可用，并给了偏“日常开发场景”的试用描述（创建/调试/扩展/文档四类任务）。blog.kilo.ai

这类信号比“单次跑分截图”更重要：说明它正在被当成 可稳定上线的工作流模型，而不仅是“偶尔惊艳”。

5）怎么用：把 M2.1 放进你的默认链路

这里给几个偏工程落地的用法建议（不追求花哨，追求能跑通）：

6）开放与部署：这次仍然强调“可本地化”

对团队来说，这意味着两条路都能走：

要快就直接 API；要控成本/控数据/控延迟，就走本地部署。

怎么看 M2.1 的“关键价值”

DataLearner 官方微信

欢迎关注 DataLearner 官方微信，获得最新 AI 技术推送