Qwen 3.6 Plus Preview 评测深度分析

Qwen 3.6 Plus Preview 评测分析：AIME 2026 以 95.30 排名第一，HLE 有无工具差距达 21.8 分，Terminal Bench 较前代提升 9.1 分，IF Bench 则出现退步。本文基于 DataLearner 数据，对比 Kimi K2.5 与 MiniMax-M2.7，梳理本次迭代的能力取舍。

Qwen 3.6 Plus Preview 于2026年3月31日正式上线，是阿里巴巴 Qwen Plus 系列的最新预览版本。相较于前代 Qwen3.5-397B-A17B（2026年2月），这次迭代用了不到两个月时间，以 DataLearner 收录的11项评测数据为基础，本文尝试梳理这个模型的真实水平。

模型基本信息

架构层面，Qwen 3.6 Plus Preview 使用了线性注意力机制与稀疏 MoE（Mixture-of-Experts）的混合设计，上下文窗口为100万 token，最大单次输出65,536 token。模型目前不开源，参数量未披露，目前通过 OpenRouter 提供免费预览访问。

一、各类别基准表现

综合知识与推理

GPQA Diamond 是目前学界公认难度较高的研究生级问答评测，Qwen 3.6 Plus Preview 得分 90.40，在162个被收录模型中排名第11。MMLU Pro 得分 88.50，在115个模型中排名第4。C-Eval 93.30，在收录的6个参测模型中排名第2。

这三项评测的共性是题目难度偏高但属于封闭式问答，不涉及外部工具调用。Qwen 3.6 Plus 在这一类别处于第一梯队。

极难评测（HLE）的工具依赖问题

HLE（Humanity's Last Exam）是目前最难的综合知识评测之一，收录了来自各领域的专家级题目。Qwen 3.6 Plus 在无工具模式下仅得 28.80，在116个模型中排名第46；开启工具调用后得分跳升至 50.60，排名第6。

两者之间差了 21.8分，这个差距值得专门讨论。对比来看，Kimi K2.5 无工具 HLE 为 30.10，与 Qwen 3.6 Plus 无工具状态基本持平。这说明在高难度的纯推理题目上，两个模型的独立判断能力相近，而 Qwen 3.6 Plus 的 HLE 领先，很大程度上依赖工具调用来完成验证和辅助计算。这不是缺陷，但用"原始推理能力强"来描述这一项成绩是不准确的。

数学推理

AIME 2026 得分 95.30，在8个参测模型中排名第1，是本次所有评测中唯一拿到第一名的项目。IMO-AnswerBench 83.80，排名第4（共8个）。前代 Qwen3.5-397B-A17B 对应分别为 91.30 和 80.90，本次提升了4.0和2.9分。

数学推理是 Qwen 3.6 Plus 最突出的能力，且与竞品的差距在各类别中也属于最明显之一。

编程与软件工程

LiveCodeBench 87.10，排名第4（共107个），较前代 83.60 提升3.5分。SWE-bench Verified 78.80，排名第11（共94个），较前代 76.40 提升2.4分。SWE-Bench Pro（Public）56.60，排名第3（共20个）。

代码能力在本次迭代中整体有稳健提升，SWE-Bench Pro 的前三名排位说明在真实软件工程任务（而非简单代码生成）上也处于头部水平。

AI Agent 能力

Terminal Bench 2.0 是本次迭代进步最显著的单项：从前代 52.50 提升至 61.60，增幅 9.1 分，在28个参测模型中排名第6。Tool Decathlon 39.80，排名第2（共4个，数据点较少）。

这一方向的集中提升，结合 HLE 有工具模式的高分，表明阿里在这一代模型的训练中将 Agent 工具使用作为重点方向。

指令跟随

IF Bench 74.20，排名第6（共28个）。注意前代 Qwen3.5-397B-A17B 在这一项得 76.50，Qwen 3.6 Plus Preview 出现了 2.3分的退步，是11项可比评测中唯一出现明显下降的指标。

MiniMax-M2.7 在同一评测中（使用工具模式）得分76.00，略高于 Qwen 3.6 Plus（无工具模式，74.20）。IF Bench 主要考查模型对复杂约束指令的执行能力，这一项退步值得关注，尤其是在 Agent 任务往往依赖精确指令遵从的背景下，两者方向上存在一定矛盾。

长上下文理解

AA-LCR 68.30，在13个模型中排名第6，较前代 68.70 略降0.4分，基本持平。

1M token 上下文是 Qwen 3.6 Plus 的关键卖点，但在长文本理解的实际评测中，排名处于中游，不属于第一梯队。换句话说，长上下文窗口的支持与长上下文的理解质量之间，目前还有差距。

二、竞品对比小结

DataLearner 收录了与 Kimi K2.5 和 MiniMax-M2.7 的横向对比数据。

与 Kimi K2.5 相比，Qwen 3.6 Plus 在综合知识（MMLU Pro 差距10分）、数学推理、Agent 工具使用上领先明显。代码方面也全面领先，Terminal Bench 差距约11分。两者价格相近（输入均约 $0.5–0.6/1M，输出均 $3/1M）。

与 MiniMax-M2.7 相比，后者在价格上便宜约60%（输出价 $1.2/1M vs $3.0/1M），在 IF Bench 和 AA-LCR 两项上与 Qwen 3.6 Plus 基本持平，但 Qwen 3.6 Plus 在数学推理和代码方面的数据优势较明显（MiniMax-M2.7 部分评测无数据可比）。

三、代际迭代的几点观察

从 Qwen3-Coder（2025年7月）→ Qwen3.5（2026年2月）→ Qwen 3.6 Plus（2026年3月）这条时间线来看，迭代节奏明显加快，一季度内发两版。

在11项可比评测中，本次迭代9项提升、1项持平（AA-LCR）、1项退步（IF Bench）。提升幅度最大的是 Terminal Bench（+9.1），数学推理次之（AIME +4.0）。

IF Bench 的退步是一个结构性信号：强化推理和工具调用能力的训练方向，可能以指令遵从的精度为代价。这在目前多个强推理模型的迭代中都有类似现象，Qwen 3.6 Plus 不是孤例，但需要用户在依赖精确格式化输出的场景中留意。

四、尚不明确的信息

模型参数量未对外公布，架构细节仅有"混合线性注意力 + 稀疏MoE"的描述，无论文支撑。当前处于 Preview 阶段，正式定价未发布，DataLearner 显示的 $0.5/$3.0 价格来源需进一步核实。多模态支持情况在官方资料中也未明确说明（DataLearner 标注为纯文本模型）。

总结

按现有数据，Qwen 3.6 Plus Preview 的能力图谱大体呈现为：数学推理 > 代码工程 ≈ 综合知识 > Agent 工具使用 > 长上下文理解 > 指令跟随。

最值得关注的两个数据点，一是 HLE 在有无工具之间 21.8 分的巨大落差，揭示了极难任务下独立推理能力的边界；二是 Terminal Bench 的大幅提升与 IF Bench 的同步退步，这两者同向排列，说明当前迭代有明确的优化侧重，也带来了相应的取舍。

评测结果

Qwen 3.6 Plus Preview

评测结果

综合评估

共 6 项评测

评测名称 / 模式

得分

排名/总数

C-Eval

思考模式

93.30

2 / 9

GPQA Diamond

思考模式

90.40

18 / 180

MMLU Pro

思考模式

88.50

5 / 126

LiveBench

常规模式

70.85

34 / 115

HLE

思考模式

28.80

85 / 164

HLE

思考模式工具

50.60

21 / 164

编程与软件工程

共 5 项评测

评测名称 / 模式

得分

排名/总数

LiveCodeBench

思考模式

87.10

10 / 120

SWE-bench Verified

思考模式工具

78.80

20 / 109

SWE-bench Multilingual

思考模式

73.80

8 / 21

SWE-Bench Pro - Public

思考模式

56.60

17 / 47

SWE-Bench Pro - Public

思考模式工具

56.60

17 / 47

指令跟随

共 1 项评测

评测名称 / 模式

得分

排名/总数

IF Bench

思考模式

74.20

6 / 29

AI Agent - 工具使用

共 2 项评测

评测名称 / 模式

得分

排名/总数

Terminal Bench 2.0

思考模式工具

61.60

16 / 46

Tool Decathlon

思考模式工具

39.80

6 / 9

数学推理

共 2 项评测

评测名称 / 模式

得分

排名/总数

AIME 2026

思考模式

95.30

3 / 15

IMO-AnswerBench

思考模式

83.80

12 / 21

长上下文能力

共 2 项评测

评测名称 / 模式

得分

排名/总数

AA-LCR

思考模式

68.30

7 / 14

LongBench v2

常规模式

3 / 11

与其他模型对比

竞品对比

Qwen 3.6 Plus Preview 与同类主流模型的评测得分对比

Qwen 3.6 Plus PreviewKimi K2.5 GLM 5.1 MiniMax-M2.7

评测类别:

柱状图按当前筛选范围内每个模型在各评测中的最高分展示；百分制评测使用原始高度，超出 0-100 的评测按该评测内相对比例缩放，标签仍保留原始分数。

11 项可对比评测得分汇总。每个模型展示最佳得分，模式在分数下方标注。

评测项	Qwen 3.6 Plus Preview当前	Kimi K2.5	GLM 5.1	MiniMax-M2.7
GPQA Diamond 综合评估	90.40开启思考	--	86.20开启思考	87.00开启思考
HLE 综合评估	50.60开启思考｜工具	50.20开启思考｜工具	52.30开启思考｜工具	28.00开启思考
LiveBench 综合评估	70.85常规模式	69.07开启思考	70.18常规模式	63.49深度思考模式
SWE-Bench Pro - Public 编程与软件工程	56.60开启思考｜工具	50.70开启思考｜工具	58.40开启思考｜工具	56.20开启思考｜工具
SWE-bench Verified 编程与软件工程	78.80开启思考｜工具	76.80开启思考｜工具	--	--
IF Bench 指令跟随	74.20开启思考	--	--	76.00开启思考｜工具
Terminal Bench 2.0 AI Agent - 工具使用	61.60开启思考｜工具	50.80开启思考｜工具	63.50开启思考｜工具	--
Tool Decathlon AI Agent - 工具使用	39.80开启思考｜工具	--	40.70开启思考｜工具	--
AIME 2026 数学推理	95.30开启思考	--	95.30开启思考	--
IMO-AnswerBench 数学推理	83.80开启思考	--	83.80开启思考	--
AA-LCR 长上下文能力	68.30开启思考	--	--	69.00开启思考｜工具

Qwen 3.6 Plus Preview 与同类模型的标准 API 价格对比

按模型并排展示标准文本输入价与输出价；若存在超长上下文加价，仅保留阈值内标准价，并在下方说明适用范围。

数据来源：DataLearnerAI，展示默认供应商的标准文本价格。 · USD / 1M tokens

模型	供应商	标准输入	标准输出	标准价适用于
Qwen 3.6 Plus Preview	阿里巴巴	$0.5 / 1M tokens	$3 / 1M tokens	—
GLM 5.1	智谱AI	$1.4 / 1M tokens	$4.4 / 1M tokens	—
MiniMax-M2.7	MiniMaxAI	$0.3 / 1M tokens	$1.2 / 1M tokens	—

历代版本对比

Qwen 3.6 Plus Preview 系列各版本的评测成绩纵向对比

Qwen 3.6 Plus PreviewQwen3.5-397B-A17B Qwen3-Coder-480B-A35B

评测类别:

12 项可对比评测得分汇总。每个模型展示最佳得分，模式在分数下方标注。· 点击任意行可切换下方趋势图。

评测项	Qwen 3.6 Plus Preview当前	Qwen3.5-397B-A17B	Qwen3-Coder-480B-A35B
C-Eval 综合评估	93.30开启思考	93.00开启思考	--
GPQA Diamond 综合评估	90.40开启思考	88.40开启思考	--
HLE 综合评估	50.60开启思考｜工具	48.30开启思考｜工具	--
MMLU Pro 综合评估	88.50开启思考	87.80开启思考	--
LiveCodeBench 编程与软件工程	87.10开启思考	83.60开启思考	--
SWE-bench Multilingual 编程与软件工程	73.80开启思考	69.30开启思考	--
SWE-Bench Pro - Public 编程与软件工程	56.60开启思考｜工具	50.90开启思考	--
SWE-bench Verified 编程与软件工程	78.80开启思考｜工具	76.40开启思考｜工具	67.00常规模式
IF Bench 指令跟随	74.20开启思考	76.50开启思考	--
Terminal Bench 2.0 AI Agent - 工具使用	61.60开启思考｜工具	52.50开启思考｜工具	--
Tool Decathlon AI Agent - 工具使用	39.80开启思考｜工具	38.30开启思考｜工具	--
AIME 2026 数学推理	95.30开启思考	91.30开启思考	--

其余 3 个 benchmark 仍可在上方图表中查看。

单评测历史趋势图

当前查看：C-Eval · 综合评估

选择评测

常规常规 + 工具推理推理 + 工具深度推理深度推理 + 工具

横轴为模型与发布时间，纵轴为分数；同一模式会用实线串起版本变化，同代不同模式继续用虚线辅助对齐。

Qwen 3.6 Plus Preview 所在系列的标准 API 价格对比

按模型并排展示标准文本输入价与输出价；若存在超长上下文加价，仅保留阈值内标准价，并在下方说明适用范围。

数据来源：DataLearnerAI，展示默认供应商的标准文本价格。 · USD / 1M tokens

模型	供应商	标准输入	标准输出	标准价适用于
Qwen 3.6 Plus Preview	阿里巴巴	$0.5 / 1M tokens	$3 / 1M tokens	—
Qwen3.5-397B-A17B	阿里巴巴	$0.5 / 1M tokens	$3 / 1M tokens	—

数据来源

qwen.aiqwen.ai