Qwen 3.6 Plus Preview 于2026年3月31日正式上线,是阿里巴巴 Qwen Plus 系列的最新预览版本。相较于前代 Qwen3.5-397B-A17B(2026年2月),这次迭代用了不到两个月时间,以 DataLearner 收录的11项评测数据为基础,本文尝试梳理这个模型的真实水平。
模型基本信息
架构层面,Qwen 3.6 Plus Preview 使用了线性注意力机制与稀疏 MoE(Mixture-of-Experts)的混合设计,上下文窗口为100万 token,最大单次输出65,536 token。模型目前不开源,参数量未披露,目前通过 OpenRouter 提供免费预览访问。
一、各类别基准表现
综合知识与推理
GPQA Diamond 是目前学界公认难度较高的研究生级问答评测,Qwen 3.6 Plus Preview 得分 90.40,在162个被收录模型中排名第11。MMLU Pro 得分 88.50,在115个模型中排名第4。C-Eval 93.30,在收录的6个参测模型中排名第2。
这三项评测的共性是题目难度偏高但属于封闭式问答,不涉及外部工具调用。Qwen 3.6 Plus 在这一类别处于第一梯队。
极难评测(HLE)的工具依赖问题
HLE(Humanity's Last Exam)是目前最难的综合知识评测之一,收录了来自各领域的专家级题目。Qwen 3.6 Plus 在无工具模式下仅得 28.80,在116个模型中排名第46;开启工具调用后得分跳升至 50.60,排名第6。
两者之间差了 21.8分,这个差距值得专门讨论。对比来看,Kimi K2.5 无工具 HLE 为 30.10,与 Qwen 3.6 Plus 无工具状态基本持平。这说明在高难度的纯推理题目上,两个模型的独立判断能力相近,而 Qwen 3.6 Plus 的 HLE 领先,很大程度上依赖工具调用来完成验证和辅助计算。这不是缺陷,但用"原始推理能力强"来描述这一项成绩是不准确的。
数学推理
AIME 2026 得分 95.30,在8个参测模型中排名第1,是本次所有评测中唯一拿到第一名的项目。IMO-AnswerBench 83.80,排名第4(共8个)。前代 Qwen3.5-397B-A17B 对应分别为 91.30 和 80.90,本次提升了4.0和2.9分。
数学推理是 Qwen 3.6 Plus 最突出的能力,且与竞品的差距在各类别中也属于最明显之一。
编程与软件工程
LiveCodeBench 87.10,排名第4(共107个),较前代 83.60 提升3.5分。SWE-bench Verified 78.80,排名第11(共94个),较前代 76.40 提升2.4分。SWE-Bench Pro(Public)56.60,排名第3(共20个)。
代码能力在本次迭代中整体有稳健提升,SWE-Bench Pro 的前三名排位说明在真实软件工程任务(而非简单代码生成)上也处于头部水平。
AI Agent 能力
Terminal Bench 2.0 是本次迭代进步最显著的单项:从前代 52.50 提升至 61.60,增幅 9.1 分,在28个参测模型中排名第6。Tool Decathlon 39.80,排名第2(共4个,数据点较少)。
这一方向的集中提升,结合 HLE 有工具模式的高分,表明阿里在这一代模型的训练中将 Agent 工具使用作为重点方向。
指令跟随
IF Bench 74.20,排名第6(共28个)。注意前代 Qwen3.5-397B-A17B 在这一项得 76.50,Qwen 3.6 Plus Preview 出现了 2.3分的退步,是11项可比评测中唯一出现明显下降的指标。
MiniMax-M2.7 在同一评测中(使用工具模式)得分76.00,略高于 Qwen 3.6 Plus(无工具模式,74.20)。IF Bench 主要考查模型对复杂约束指令的执行能力,这一项退步值得关注,尤其是在 Agent 任务往往依赖精确指令遵从的背景下,两者方向上存在一定矛盾。
长上下文理解
AA-LCR 68.30,在13个模型中排名第6,较前代 68.70 略降0.4分,基本持平。
1M token 上下文是 Qwen 3.6 Plus 的关键卖点,但在长文本理解的实际评测中,排名处于中游,不属于第一梯队。换句话说,长上下文窗口的支持与长上下文的理解质量之间,目前还有差距。
二、竞品对比小结
DataLearner 收录了与 Kimi K2.5 和 MiniMax-M2.7 的横向对比数据。
与 Kimi K2.5 相比,Qwen 3.6 Plus 在综合知识(MMLU Pro 差距10分)、数学推理、Agent 工具使用上领先明显。代码方面也全面领先,Terminal Bench 差距约11分。两者价格相近(输入均约 $0.5–0.6/1M,输出均 $3/1M)。
与 MiniMax-M2.7 相比,后者在价格上便宜约60%(输出价 $1.2/1M vs $3.0/1M),在 IF Bench 和 AA-LCR 两项上与 Qwen 3.6 Plus 基本持平,但 Qwen 3.6 Plus 在数学推理和代码方面的数据优势较明显(MiniMax-M2.7 部分评测无数据可比)。
三、代际迭代的几点观察
从 Qwen3-Coder(2025年7月)→ Qwen3.5(2026年2月)→ Qwen 3.6 Plus(2026年3月)这条时间线来看,迭代节奏明显加快,一季度内发两版。
在11项可比评测中,本次迭代9项提升、1项持平(AA-LCR)、1项退步(IF Bench)。提升幅度最大的是 Terminal Bench(+9.1),数学推理次之(AIME +4.0)。
IF Bench 的退步是一个结构性信号:强化推理和工具调用能力的训练方向,可能以指令遵从的精度为代价。这在目前多个强推理模型的迭代中都有类似现象,Qwen 3.6 Plus 不是孤例,但需要用户在依赖精确格式化输出的场景中留意。
四、尚不明确的信息
模型参数量未对外公布,架构细节仅有"混合线性注意力 + 稀疏MoE"的描述,无论文支撑。当前处于 Preview 阶段,正式定价未发布,DataLearner 显示的 $0.5/$3.0 价格来源需进一步核实。多模态支持情况在官方资料中也未明确说明(DataLearner 标注为纯文本模型)。
总结
按现有数据,Qwen 3.6 Plus Preview 的能力图谱大体呈现为:数学推理 > 代码工程 ≈ 综合知识 > Agent 工具使用 > 长上下文理解 > 指令跟随。
最值得关注的两个数据点,一是 HLE 在有无工具之间 21.8 分的巨大落差,揭示了极难任务下独立推理能力的边界;二是 Terminal Bench 的大幅提升与 IF Bench 的同步退步,这两者同向排列,说明当前迭代有明确的优化侧重,也带来了相应的取舍。