Qwen3-235B-A22B-2507
Qwen3-235B-A22B-Instruct-2507
模型参数
2350.0亿
上下文长度
256K
中文支持
支持
推理能力
模型基本信息
推理过程
不支持
上下文长度
256K tokens
最大输出长度
32768 tokens
模型类型
暂无数据
发布时间
2025-07-21
模型文件大小
470.77 GB
MoE架构
是
总参数 / 激活参数
2350.0 亿 / 220 亿
知识截止
暂无数据
推理模式
常规模式(Non-Thinking Mode)
开源和体验地址
官方介绍与博客
API接口信息
接口速度
3/5
默认单位:$/100万 tokens。若计费单位不同,则以供应商公开的原始标注为准。
标准计费Standard
| 模态 | 输入 | 输出 |
|---|---|---|
| 文本 | $0.7 | $2.8 |
评测得分
综合评估
共 4 项评测评测名称 / 模式
得分
排名/总数
模型变体及不同版本下载
发布机构
阿里巴巴
查看发布机构详情 模型解读
Qwen3-235B-A22B-2507是阿里开源的Qwen3-235B-A22B的一个升级版本,原有的Qwen3-235B-A22B-2507模型是一个同时支持“思考模式”和“非思考模式”的模型。但是阿里发现社区觉得这个模型并不好用,因此发布了这个升级版本,这个升级版本的模型不支持思考模式!
相比较4月底发布的Qwen3-235B-A22B模型,本次发布的模型,在非推理模式下,各方面都有明显的提升:

- 是 Qwen3-235B-A22B 非思考模式的「指令微调升级版」。
- 只支持非思考(enable_thinking=False 不再需要,也不会出现 <think> 块)。
- 面向生产场景:长文档理解、数学/代码、工具调用、主观写作等一次完成,无需链式推理痕迹。
- 关键升级
- 通用能力:指令遵循、逻辑推理、文本理解、数学、科学、代码、工具使用全面提升。
- 知识覆盖:长尾多语种知识显著扩充。
- 人类偏好:主观/开放式任务更贴近用户口味,回答更有帮助且文本质量更高。
- 长上下文:原生 256 K(262 144 tokens)窗口,长文本理解与检索任务大幅增强。
- 规格参数
- 架构:Dense-MoE 混合,94 层,128 专家,每次激活 8 专家。
- 参数:235 B 总参数 / 22 B 激活参数;非嵌入部分 234 B。
- Attention:GQA,64 Q-heads + 4 KV-heads。
- 训练:预训练 + 后期对齐(SFT + RLHF)。
- 主要 Benchmark 亮点(↑ vs Qwen3-235B-A22B 非思考版)
- 数学:AIME25 70.3 (↑45.6)、HMMT25 55.4 (↑45.4)。
- 推理:ARC-AGI 41.8 (↑37.5)、ZebraLogic 95.0 (↑57.3)。
- 代码:LiveCodeBench v6 51.8 (↑18.9)、MultiPL-E 87.9 (↑8.6)。
- 知识:MMLU-Pro 83.0 (↑7.8)、GPQA 77.5 (↑14.6)、SimpleQA 54.3 (↑42.1)。
- 对齐:Arena-Hard v2 79.2 (↑27.2)、Creative Writing 87.5 (↑7.1)。
- 智能体 / 工具:BFCL-v3 70.9、TAU-Retail 71.3 等均为同量级模型前列。
- 使用注意
- 输出不会包含思考块,可直接用于对话、RAG、Agent 等场景。
- 硬件需求与上一代 Qwen3-235B-A22B 相近(≈ 22 B 激活显存 + KV cache)。
- 详细部署/量化方案、API 示例见官方 GitHub 与文档。
DataLearner 官方微信
欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送
