Qwen3-235B-A22B-2507是阿里开源的Qwen3-235B-A22B的一个升级版本,原有的Qwen3-235B-A22B-2507模型是一个同时支持“思考模式”和“非思考模式”的模型。但是阿里发现社区觉得这个模型并不好用,因此发布了这个升级版本,这个升级版本的模型不支持思考模式!
相比较4月底发布的Qwen3-235B-A22B模型,本次发布的模型,在非推理模式下,各方面都有明显的提升:

具体数据参考: https://www.datalearner.com/ai-models/ai-benchmarks-tests/compare-result?benchmarkInputString=16,29,32,42,40,44,33&modelInputString=635,567,543,625,547
- 是 Qwen3-235B-A22B 非思考模式的「指令微调升级版」。
- 只支持非思考(enable_thinking=False 不再需要,也不会出现 <think> 块)。
- 面向生产场景:长文档理解、数学/代码、工具调用、主观写作等一次完成,无需链式推理痕迹。
- 关键升级
- 通用能力:指令遵循、逻辑推理、文本理解、数学、科学、代码、工具使用全面提升。
- 知识覆盖:长尾多语种知识显著扩充。
- 人类偏好:主观/开放式任务更贴近用户口味,回答更有帮助且文本质量更高。
- 长上下文:原生 256 K(262 144 tokens)窗口,长文本理解与检索任务大幅增强。
- 规格参数
- 架构:Dense-MoE 混合,94 层,128 专家,每次激活 8 专家。
- 参数:235 B 总参数 / 22 B 激活参数;非嵌入部分 234 B。
- Attention:GQA,64 Q-heads + 4 KV-heads。
- 训练:预训练 + 后期对齐(SFT + RLHF)。
- 主要 Benchmark 亮点(↑ vs Qwen3-235B-A22B 非思考版)
- 数学:AIME25 70.3 (↑45.6)、HMMT25 55.4 (↑45.4)。
- 推理:ARC-AGI 41.8 (↑37.5)、ZebraLogic 95.0 (↑57.3)。
- 代码:LiveCodeBench v6 51.8 (↑18.9)、MultiPL-E 87.9 (↑8.6)。
- 知识:MMLU-Pro 83.0 (↑7.8)、GPQA 77.5 (↑14.6)、SimpleQA 54.3 (↑42.1)。
- 对齐:Arena-Hard v2 79.2 (↑27.2)、Creative Writing 87.5 (↑7.1)。
- 智能体 / 工具:BFCL-v3 70.9、TAU-Retail 71.3 等均为同量级模型前列。
- 使用注意
- 输出不会包含思考块,可直接用于对话、RAG、Agent 等场景。
- 硬件需求与上一代 Qwen3-235B-A22B 相近(≈ 22 B 激活显存 + KV cache)。
- 详细部署/量化方案、API 示例见官方 GitHub 与文档。