DataLearner 标志DataLearnerAI
最新AI资讯
大模型排行榜
大模型评测基准
大模型列表
大模型对比
资源中心
工具
语言中文
DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
目录
目录
  1. 首页/
  2. 博客列表/
  3. 博客详情

阿里开源Qwen3.6-35B-A3B:3B激活参数,Terminal-Bench 2.0达51.5,Agent编码能力全面超越上代

2026/04/16 22:39:46
57 阅读
Qwen3.6Qwen3.6-35B-A3B

就在刚刚(2026年4月15日),阿里通义千问团队宣布开源 Qwen3.6-35B-A3B。这是继 Qwen3.6-Plus 以 API 形式亮相之后,Qwen3.6 系列的首个开放权重模型。模型总参数规模 350 亿,但每个 token 仅激活约 30 亿参数,在 Agent 编码类任务上大幅超越上代同款 Qwen3.5-35B-A3B,Terminal-Bench 2.0 评测从 40.5 跃升至 51.5,QwenWebBench Elo 评分从 978 跃升至 1397,在 Agent 编码方向已接近甚至超过上一代稠密旗舰 Qwen3.5-27B。模型以 Apache 2.0 协议完全开源,已上架 HuggingFace 和 ModelScope,API 托管版本对应模型名 qwen3.6-flash。

目录

  • 背景:林俊旸离开之后,这是千问的首次开源
  • Qwen3.6-35B-A3B 的核心特点
  • Agent编码与语言能力评测:代码Agent全面提升,知识推理稳步改善
  • 视觉语言能力:多项指标超过Claude Sonnet 4.5
  • 如何获取与部署

背景:林俊旸离开之后,这是千问的首次开源

通义千问近几个月经历了一次不小的人事变化。主导 Qwen3-Max 和 Qwen3.5 系列开发的核心负责人林俊旸(Lin Junyang),已于 2026 年初正式离开阿里巴巴,同期还有多名 Qwen 高管相继离职。

此前,Qwen3.6-Plus 于 3 月 30 日悄然上线 OpenRouter,上线首日单模型调用量突破 1.4 万亿 token,创下该平台历史纪录,并在 Code Arena 全球排名中居中国模型最高位。但彼时模型权重未对外开放。根据 Qwen3.5 Plus 的命名风格,Qwen3.6-Plus 应该是 Qwen3.6-397B-A17B 规模的模型(因为 Qwen3.5-Plus 就是 Qwen3.5-397B-A17B)。今天的 Qwen3.6-35B-A3B,是 Qwen3.6 系列第一个开源模型。


Qwen3.6-35B-A3B 的核心特点

通常来说,MoE 架构的模型相比同等总参数规模的稠密模型,综合能力是要偏弱的——这是 MoE 设计的固有取舍,以激活参数少换取推理效率,但知识密度上往往不及全参数激活的稠密版本。

Qwen3.6-35B-A3B 这一代的提升是比较明显的,在 Agent 编码方向已经接近甚至超过了上一代同等参数规模的稠密模型 Qwen3.5-27B。Terminal-Bench 2.0 上,Qwen3.6-35B-A3B 得分 51.5,Qwen3.5-27B 为 41.6;SWE-bench Verified 上得分 73.4,与 Qwen3.5-27B 的 75.0 仍有小幅差距,尚未完全追平。相比上代同款 Qwen3.5-35B-A3B,进步幅度同样明显,整体提升主要集中在 Agent 执行层面。


Agent编码与语言能力评测:代码Agent全面提升,知识推理稳步改善

从评测数据来看,Qwen3.6-35B-A3B 的进步主要集中在 Agent 编码方向,知识和推理类指标属于稳步改善,通用 Agent 方向则表现参差。以下分类来看。

Agent 编码

Agent 编码是这次发布最值得关注的方向,也是与上代拉开差距最明显的地方。从下表可以看到,Qwen3.6-35B-A3B 在几乎所有编码 Agent 评测上均超越上代同款 Qwen3.5-35B-A3B,且多项指标已接近甚至超过 Qwen3.5-27B。

评测Qwen3.5-27BGemma4-31BQwen3.5-35B-A3BQwen3.6-35B-A3B
SWE-bench Verified75.052.070.073.4
SWE-bench Multilingual69.351.760.367.2
SWE-bench Pro51.235.744.649.5
Terminal-Bench 2.041.642.940.551.5
Claw-Eval Avg64.348.565.468.7
QwenWebBench(Elo)106811979781397
NL2Repo27.315.520.529.4

SWE-bench Verified 和 Terminal-Bench 2.0 是目前最接近真实 Agent 工作流的编码评测:前者要求模型修复真实 GitHub 仓库中的 issue,后者在真实终端环境中运行完整任务。Qwen3.6-35B-A3B 在这两项上均明显超越上代同款,Terminal-Bench 更是以 51.5 超越了 Qwen3.5-27B(41.6)和 Gemma4-31B(42.9)。SWE-bench Verified 的 73.4 尚未追平 Qwen3.5-27B 的 75.0,差距已缩小到 1.6 个点。

QwenWebBench 涵盖 Web Design、Web Apps、Games、SVG、数据可视化、动画和 3D 七个前端类别,采用自动渲染加视觉评分,Elo 评分从 978 跃升至 1397,是本次发布提升幅度最大的单项指标,体现了模型在生成完整可运行前端代码方面的实质性进步。

General Agent

通用 Agent 方向(客服、规划、工具调用)上,这次的提升不如编码方向集中,整体表现参差不齐,部分指标甚至略低于上代。

评测Qwen3.5-27BGemma4-31BQwen3.5-35B-A3BQwen3.6-35B-A3B
TAU3-Bench68.467.568.967.2
MCPMark36.318.127.037.0
MCP-Atlas68.457.262.462.8
DeepPlanning22.624.022.825.9

TAU3-Bench 上的 67.2 略低于上代的 68.9,MCP-Atlas 则基本与上代持平。MCPMark(MCP 工具调用评测)是这一类别的亮点,以 37.0 不仅大幅超越上代(27.0),也超过了 Qwen3.5-27B(36.3),说明在 MCP 工具调用的准确性上有实质提升。

知识与推理

知识和推理方向属于稳步改善,没有特别大的跃升,但各项指标方向一致向好。

评测Qwen3.5-27BGemma4-31BQwen3.5-35B-A3BQwen3.6-35B-A3B
GPQA Diamond85.584.384.286.0
MMLU-Pro86.185.285.385.2
AIME 202692.689.291.092.7
C-Eval90.582.690.290.0
LiveCodeBench v680.780.074.680.4

GPQA Diamond 从 84.2 升至 86.0,已超过 Qwen3.5-27B 的 85.5;AIME 2026 从 91.0 升至 92.7;LiveCodeBench v6 从 74.6 大幅升至 80.4,追平了 Qwen3.5-27B 的 80.7。MMLU-Pro 与上代基本持平,C-Eval 中文综合评测 90.0 维持稳定,中文能力没有退步。


视觉语言能力:多项指标超过Claude Sonnet 4.5

Qwen3.6-35B-A3B 是原生多模态模型,官方以 Claude Sonnet 4.5 作为对比基准之一。整体来看,在通用视觉和文档理解方向,Qwen3.6-35B-A3B 相比 Claude Sonnet 4.5 有明显优势;与同系列稠密模型 Qwen3.5-27B 相比,差距进一步收窄,部分方向已经反超。

通用视觉与文档理解

通用视觉和文档理解是 Qwen 系列一贯的优势方向,这一代继续保持。官方选择将 Claude Sonnet 4.5 作为主要参照之一,从数据来看这个选择对 Qwen 相当有利。

评测Qwen3.5-27BClaude Sonnet 4.5Gemma4-31BQwen3.5-35B-A3BQwen3.6-35B-A3B
MMMU82.379.680.481.481.7
MMMU-Pro75.068.476.975.175.3
RealWorldQA83.770.372.384.185.3
OmniDocBench1.588.985.880.189.389.9
HallusionBench70.059.967.467.969.8
MMBench EN-DEV92.688.390.991.592.8

RealWorldQA(85.3 对 70.3)、OmniDocBench1.5(89.9 对 85.8)、HallusionBench(69.8 对 59.9)均明显超出 Claude Sonnet 4.5。相比上代 Qwen3.5-35B-A3B,各项也有小幅提升。不过与 Qwen3.5-27B 相比仍有小幅差距,例如 MMMU 81.7 vs 82.3,视觉能力上并非全面超越同系列稠密版本。

空间智能与视频理解

空间智能和视频理解是这次视觉方向的主要进步点,多个指标不仅超越上代,还超过了 Qwen3.5-27B。

评测Qwen3.5-27BQwen3.5-35B-A3BQwen3.6-35B-A3B
RefCOCO(avg)90.989.292.0
ODInW1341.142.650.8
VideoMMMU82.380.483.7
MLVU85.985.686.2
VideoMME(含字幕)87.086.686.6

RefCOCO 从 89.2 升至 92.0,超过 Qwen3.5-27B 的 90.9;ODInW13 从 42.6 大幅升至 50.8,是空间智能方向提升最显著的单项;VideoMMMU 从 80.4 升至 83.7,同样超过了 Qwen3.5-27B 的 82.3。VideoMME(含字幕)与上代持平,维持在 86.6。


Qwen3.6-35B-A3B目前已经开源可以直接下载

模型已上架 HuggingFace(Qwen/Qwen3.6-35B-A3B)和 ModelScope,Apache 2.0 开源协议,商业使用无限制。

另外,阿里云官方已经上架该模型,模型名为 qwen3.6-flash,同时兼容 OpenAI 和 Anthropic 两套协议。后者意味着可以直接在 Claude Code 里配置使用,官方给出了完整配置脚本。此外模型同样支持接入 OpenClaw 和 Qwen Code 两种 Agent 编码工具。模型也已在 Qwen Studio 上线,可直接在线体验。

关于 Qwen3.6-35B-A3B 的更多基准数据及横向对比,参考 DataLearner 模型信息卡:https://www.datalearner.com/ai-models/pretrained-models/qwen3-6-35b-a3b

DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码
返回博客列表

热门博客

  • 1Dirichlet Distribution(狄利克雷分布)与Dirichlet Process(狄利克雷过程)
  • 2回归模型中的交互项简介(Interactions in Regression)
  • 3贝塔分布(Beta Distribution)简介及其应用
  • 4矩母函数简介(Moment-generating function)
  • 5普通最小二乘法(Ordinary Least Squares,OLS)的详细推导过程
  • 6使用R语言进行K-means聚类并分析结果
  • 7深度学习技巧之Early Stopping(早停法)
  • 8手把手教你本地部署清华大学的ChatGLM-6B模型——Windows+6GB显卡本地部署