Qwen3-235B-A22B-Thinking-2507、Qwen3-235B-A22B-2507（2 款）对比结果

能力分布概览

每条轴代表一个评测领域的平均水平，并统一映射到 100 分雷达坐标。

视图: 非并行模式平均·4 个维度

Qwen3-235B-A22B-Thinking-2507

相对优势: 编程与软件工程 +22.3 / 相对落后: 写作和创作 -1.4

Qwen3-235B-A22B-2507

相对优势: 写作和创作 +1.4 / 相对落后: 编程与软件工程 -22.3

计算口径：同一模型在同一 benchmark 下先平均当前模式范围内的所有分数，不取最高分；再按评测领域对这些 benchmark 分数求平均。只纳入至少两个模型有数据的 benchmark，缺项不按 0 分处理。

综合领先

Qwen3-235B-A22B-Thinking-2507 · 83.60

单项最高

Qwen3-235B-A22B-Thinking-2507 · AIME2025 92.30

模态覆盖

Qwen3-235B-A22B-Thinking-2507 · 1 种模态

正面对比

Qwen3-235B-A22B-Thinking-2507

Qwen3-235B-A22B-2507

领先持平落后

评测基准

领先项

落后项

+9.58

平均分差

性能评测对比

支持不同模式与工具的榜单对比。

数据优先来自官方发布（GitHub、Hugging Face、论文），其次为评测基准官方结果，最后为第三方评测机构数据。了解数据收集方法

筛选: 最佳可用·2 个模式 · 5 评测基准

图表加载中...

评测得分表格

完整列出各模型/模式的评测得分，便于横向比较。

5 项可对比评测得分汇总。每个模型展示最佳得分，模式在分数下方标注。

评测项	Qwen3-235B-A22B-Thinking-2507	Qwen3-235B-A22B-2507
GPQA Diamond 综合评估	81.10开启思考	77.50常规模式
MMLU Pro 综合评估	84.40开启思考	83.00常规模式
LiveCodeBench 编程与软件工程	74.10开启思考	51.80常规模式
AIME2025 数学推理	92.30开启思考	70.30常规模式
Creative Writing 写作和创作	86.10开启思考	87.50常规模式

API 价格对比

输入输出 token 价格并排展示

能力与规格明细

是否 MoE、商业授权、模态支持等附加能力对比。

功能与规格	Qwen3-235B-A22B-Thinking-2507阿里巴巴	Qwen3-235B-A22B-2507阿里巴巴
核心规格发布时间	2025-07-25	2025-07-21
上下文	256K	256K
参数量	2350	2350
激活参数量	220	220
最大输出	32768	32768
MoE 架构	支持	支持
支持模式	思考模式（Thinking Mode）	常规模式（Non-Thinking Mode）
开源与许可代码开源	未提供	未提供
权重开源	未提供	未提供
商业授权	免费商用授权	免费商用授权
模态支持文本输入/输出	/	/
资料来源论文 / 报告	Qwen3-235B-A22B-Instruct-2507	Qwen3: Think Deeper, Act Faster
DataLearner 博客	阿里发布Qwen3小幅更新版本，放弃混合思考模式，发布全新的2个版本Qwen3-235B-A22B-2507模型，1/5的参数，性能直逼Kimi K2，推理模式版本评测结果接近o3	阿里发布Qwen3小幅更新版本，放弃混合思考模式，发布全新的2个版本Qwen3-235B-A22B-2507模型，1/5的参数，性能直逼Kimi K2，推理模式版本评测结果接近o3

Loading comparison...

能力分布概览

每条轴代表一个评测领域的平均水平，并统一映射到 100 分雷达坐标。

视图: 非并行模式平均·4 个维度

Qwen3-235B-A22B-Thinking-2507

相对优势: 编程与软件工程 +22.3 / 相对落后: 写作和创作 -1.4

Qwen3-235B-A22B-2507

相对优势: 写作和创作 +1.4 / 相对落后: 编程与软件工程 -22.3

综合领先

Qwen3-235B-A22B-Thinking-2507 · 83.60

单项最高

Qwen3-235B-A22B-Thinking-2507 · AIME2025 92.30

模态覆盖

Qwen3-235B-A22B-Thinking-2507 · 1 种模态

正面对比

Qwen3-235B-A22B-Thinking-2507

Qwen3-235B-A22B-2507

领先持平落后

评测基准

领先项

落后项

+9.58

平均分差

性能评测对比

支持不同模式与工具的榜单对比。

数据优先来自官方发布（GitHub、Hugging Face、论文），其次为评测基准官方结果，最后为第三方评测机构数据。了解数据收集方法

筛选: 最佳可用·2 个模式 · 5 评测基准

图表加载中...

评测得分表格

完整列出各模型/模式的评测得分，便于横向比较。

5 项可对比评测得分汇总。每个模型展示最佳得分，模式在分数下方标注。

评测项	Qwen3-235B-A22B-Thinking-2507	Qwen3-235B-A22B-2507
GPQA Diamond 综合评估	81.10开启思考	77.50常规模式
MMLU Pro 综合评估	84.40开启思考	83.00常规模式
LiveCodeBench 编程与软件工程	74.10开启思考	51.80常规模式
AIME2025 数学推理	92.30开启思考	70.30常规模式
Creative Writing 写作和创作	86.10开启思考	87.50常规模式

API 价格对比

输入输出 token 价格并排展示

能力与规格明细

是否 MoE、商业授权、模态支持等附加能力对比。

功能与规格	Qwen3-235B-A22B-Thinking-2507阿里巴巴	Qwen3-235B-A22B-2507阿里巴巴
核心规格发布时间	2025-07-25	2025-07-21
上下文	256K	256K
参数量	2350	2350
激活参数量	220	220
最大输出	32768	32768
MoE 架构	支持	支持
支持模式	思考模式（Thinking Mode）	常规模式（Non-Thinking Mode）
开源与许可代码开源	未提供	未提供
权重开源	未提供	未提供
商业授权	免费商用授权	免费商用授权
模态支持文本输入/输出	/	/
资料来源论文 / 报告	Qwen3-235B-A22B-Instruct-2507	Qwen3: Think Deeper, Act Faster
DataLearner 博客	阿里发布Qwen3小幅更新版本，放弃混合思考模式，发布全新的2个版本Qwen3-235B-A22B-2507模型，1/5的参数，性能直逼Kimi K2，推理模式版本评测结果接近o3	阿里发布Qwen3小幅更新版本，放弃混合思考模式，发布全新的2个版本Qwen3-235B-A22B-2507模型，1/5的参数，性能直逼Kimi K2，推理模式版本评测结果接近o3