Qwen3-235B-A22B-2507

聊天大模型

Qwen3-235B-A22B-Instruct-2507

发布时间: 2025-07-21

946

GitHub Hugging Face 在线体验

模型参数（Parameters）

2350.0

最高上下文长度（Context Length）

256K

是否支持中文

支持

推理能力（Reasoning）

模型基本信息

是否支持推理过程

不支持

最高上下文输入长度

256K tokens

最长输出结果

32768 tokens

模型类型

聊天大模型

发布时间

2025-07-21

模型预文件大小

470.77 GB

推理模式

常规模式（Non-Thinking Mode）

开源和体验地址

代码开源状态

Apache 2.0

预训练权重开源

Apache 2.0 - 免费商用授权

GitHub 源码

https://github.com/QwenLM/Qwen3

Hugging Face

https://huggingface.co/Qwen/Qwen3-235B-A22B-Instruct-2507

在线体验

https://chat.qwen.ai/

官方介绍与博客

官方论文

Qwen3: Think Deeper, Act Faster

DataLearnerAI博客

阿里发布Qwen3小幅更新版本，放弃混合思考模式，发布全新的2个版本Qwen3-235B-A22B-2507模型，1/5的参数，性能直逼Kimi K2，推理模式版本评测结果接近o3

API接口信息

接口速度（满分5分）

接口价格

默认单位：$/100万 tokens；若计费单位不同，则以供应商公开的原始标注为准。

标准计费 Standard

模态	输入	输出
文本	0.7 美元/100 万tokens	2.8 美元/100 万tokens

Qwen3-235B-A22B-2507模型在各大评测榜单的评分

综合评估

共 4 项评测

评测名称 / 模式

得分

排名/总模型数

MMLU Pro normal

26 / 105

GPQA Diamond normal

77.50

45 / 133

LiveBench normal

65.18

28 / 48

ARC-AGI normal

41.80

15 / 32

真实性评估

共 1 项评测

评测名称 / 模式

得分

排名/总模型数

SimpleQA normal

54.30

7 / 43

编程与软件工程

共 1 项评测

评测名称 / 模式

得分

排名/总模型数

LiveCodeBench normal

51.80

63 / 94

数学推理

共 1 项评测

评测名称 / 模式

得分

排名/总模型数

AIME2025 normal

70.30

60 / 93

写作和创作

共 1 项评测

评测名称 / 模式

得分

排名/总模型数

Creative Writing normal

87.50

3 / 22

模型变体及不同版本下载

变体名称

版本类型

量化类型

模型大小

Hugging Face 地址

Qwen3-235B-A22B-Instruct-2507-FP8

版本类型: Instruct

量化类型: FP8

模型大小: 236.45 GB

下载地址

备注: 阿里Qwen3-235B-A22B-Instruct的更新版本，仅支持非思考模式版本，本版是指令优化版本，是FP8量化模式

Qwen3-235B-A22B-Instruct-2507-FP8

Instruct

FP8

236.45 GB

下载地址

Qwen3-235B-A22B-Instruct-2507

版本类型: Instruct

量化类型: BF16

模型大小: 470.77 GB

下载地址

备注: 阿里Qwen3-235B-A22B-Instruct的更新版本，仅支持非思考模式版本，指令优化版本

Qwen3-235B-A22B-Instruct-2507

Instruct

BF16

470.77 GB

下载地址

发布机构

阿里巴巴

查看发布机构详情

Qwen3-235B-A22B-Instruct-2507模型解读

Qwen3-235B-A22B-2507是阿里开源的Qwen3-235B-A22B的一个升级版本，原有的Qwen3-235B-A22B-2507模型是一个同时支持“思考模式”和“非思考模式”的模型。但是阿里发现社区觉得这个模型并不好用，因此发布了这个升级版本，这个升级版本的模型不支持思考模式！

相比较4月底发布的Qwen3-235B-A22B模型，本次发布的模型，在非推理模式下，各方面都有明显的提升：

具体数据参考： https://www.datalearner.com/ai-models/ai-benchmarks-tests/compare-result?benchmarkInputString=16,29,32,42,40,44,33&modelInputString=635,567,543,625,547

是 Qwen3-235B-A22B 非思考模式的「指令微调升级版」。
只支持非思考（enable_thinking=False 不再需要，也不会出现 <think> 块）。
面向生产场景：长文档理解、数学/代码、工具调用、主观写作等一次完成，无需链式推理痕迹。

关键升级

通用能力：指令遵循、逻辑推理、文本理解、数学、科学、代码、工具使用全面提升。
知识覆盖：长尾多语种知识显著扩充。
人类偏好：主观/开放式任务更贴近用户口味，回答更有帮助且文本质量更高。
长上下文：原生 256 K（262 144 tokens）窗口，长文本理解与检索任务大幅增强。

规格参数

架构：Dense-MoE 混合，94 层，128 专家，每次激活 8 专家。
参数：235 B 总参数 / 22 B 激活参数；非嵌入部分 234 B。
Attention：GQA，64 Q-heads + 4 KV-heads。
训练：预训练 + 后期对齐（SFT + RLHF）。

主要 Benchmark 亮点（↑ vs Qwen3-235B-A22B 非思考版）

数学：AIME25 70.3 (↑45.6)、HMMT25 55.4 (↑45.4)。
推理：ARC-AGI 41.8 (↑37.5)、ZebraLogic 95.0 (↑57.3)。
代码：LiveCodeBench v6 51.8 (↑18.9)、MultiPL-E 87.9 (↑8.6)。
知识：MMLU-Pro 83.0 (↑7.8)、GPQA 77.5 (↑14.6)、SimpleQA 54.3 (↑42.1)。
对齐：Arena-Hard v2 79.2 (↑27.2)、Creative Writing 87.5 (↑7.1)。
智能体 / 工具：BFCL-v3 70.9、TAU-Retail 71.3 等均为同量级模型前列。

使用注意

输出不会包含思考块，可直接用于对话、RAG、Agent 等场景。
硬件需求与上一代 Qwen3-235B-A22B 相近（≈ 22 B 激活显存 + KV cache）。
详细部署/量化方案、API 示例见官方 GitHub 与文档。

关注DataLearnerAI公众号

关注DataLearnerAI微信公众号，接受最新大模型资讯