DataLearner 标志DataLearnerAI
最新AI资讯
大模型评测
大模型列表
大模型对比
资源中心
AI工具导航

加载中...

DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
目录
目录
  1. 首页/
  2. 博客列表/
  3. 博客详情

阿里发布Qwen3小幅更新版本,放弃混合思考模式,发布全新的2个版本Qwen3-235B-A22B-2507模型,1/5的参数,性能直逼Kimi K2,推理模式版本评测结果接近o3

2025/07/26 08:22:25
1,038 阅读
Qwen3Qwen3更新版千问大模型

阿里今天开源了Qwen3-235B-A22B模型的一个小幅更新版本,命名为 Qwen3-235B-A22B-Thinking-2507。这是一个 仅支持推理过程 的模型。而在四天前,阿里还发布了 Qwen3-235B-A22B-Instruct-2507,它 不支持推理过程。

这两个模型将原先Qwen3中的“混合架构模式”(即一个模型同时支持thinking和non-thinking)拆分为两个独立版本。据官方说明,这是基于社区反馈所做出的调整。

  • Qwen3-235B-A22B-2507 的主要更新
  • 非推理模式模型(Instruct-2507)评测结果优于 Kimi K2
  • 推理模式模型(Thinking-2507)评测结果接近 OpenAI o3
  • 阿里为什么要拆分推理与非推理模式?
  • Qwen3-235B-A22B-2507 的开源信息与社区反馈

Qwen3-235B-A22B-2507 的主要更新

本次更新主要带来了以下变化:

  • 原先在4月底引入的“混合架构模式”被弃用。阿里认为,一个模型通过参数切换支持推理与非推理两种模式的效果不理想,因此本次直接拆分为两个模型,各自专注于一种模式,且无法通过参数切换。
  • Instruct-2507 在通用能力方面有显著提升,涵盖指令遵从、逻辑推理、文本理解、数学、科学、编码和工具使用等多个方面。
  • Thinking-2507 在逻辑推理、数学、编程方面达到了当前开源模型的 SOTA 水准。
  • 非推理版本在创意写作、风格模仿、情感支持等主观任务中,输出更贴近人类偏好,文本质量更高。
  • 多语言能力也有所增强,尤其是在某些长尾语种的知识覆盖方面。
  • 上下文长度提升至 256K(原为 128K)。

架构方面保持不变,仍为 MoE 结构,拥有 128 个专家,每次推理激活其中的 8 个。

Instruct-2507 不支持推理模式,也不会生成空的 <think></think> 标签。如需推理能力,请使用 Thinking-2507。

非推理模式模型(Instruct-2507)评测结果优于 Kimi K2

根据官方评测,相较于 4 月 28 日版本,非推理版本的能力显著增强,已全面超越 Kimi K2。

Qwen3-235B-A22B-2507模型与其它模型对比
Qwen3-235B-A22B-2507模型与其它模型对比
数据来源:DataLearnerAI 模型对比页面:https://www.datalearner.com/ai-models/ai-benchmarks-tests/compare-result?benchmarkInputString=16,29,32,42,40,44,33&modelInputString=635,567,543,625,547

图中绿色为本次更新版本,红色为 Kimi K2,青色为 4 月版本。

需要注意的是:ARC-AGI-1 的评分为 41.8(阿里公布),但 ARC Prize 官方表示无法复现,实测结果为 11.6。目前官方尚未回应此问题。

推理模式模型(Thinking-2507)评测结果接近 OpenAI o3

推理版本 Qwen3-235B-A22B-Thinking-2507 在多个方面有明显提升,尤其是在数学推理与编程能力方面表现出色。

Qwen3-235B-A22B-Thinking-2507模型与其它模型的对比
Qwen3-235B-A22B-Thinking-2507模型与其它模型的对比
数据来源:DataLearnerAI 模型对比页面:https://www.datalearner.com/resources/blog_images/c06dd12a-cca8-48e8-9d63-14fdaa120f05.webp)](https://www.datalearner.com/ai-models/ai-benchmarks-tests/compare-result?benchmarkInputString=16,31,32,42,44&modelInputString=637,625,558,578,575,576

模型在 GPQA Diamond、Creative Writing v3 等任务中表现与顶级模型接近。

在 HLE(人类最后难题)这种高难度任务中得分 18.2,优于 Claude Opus 和 Kimi K2,并略胜 DeepSeek R1。

在 AIME 2025 数学推理评测中获得了 92.3 分,超过 Gemini 2.5 Pro 与 OpenAI o3:

Qwen3-235B-A22B-Thinking-2507模型在AIME 2025得分
Qwen3-235B-A22B-Thinking-2507模型在AIME 2025得分
数据来源:DataLearnerAI AIME 2025 得分排行榜:https://www.datalearner.com/ai-benchmarks/aime-2025

目前在 DataLearnerAI 榜单中排名第 3,略低于 OpenAI o3 Pro。

阿里为什么要拆分推理与非推理模式?

此次更新最大的变化是:不再混合支持推理与非推理模式,而是明确拆分为两个模型版本。

这一变化并非临时决定。在 Qwen3-235B-A22B 发布后,虽然其代码生成和推理能力强,但社区反馈在数学与创意写作等方面存在不足,有时关闭推理反而效果更好。

此外,尽管推理时仅激活 22B 参数,但模型总规模仍为 235B,对显存要求不低。部分用户反馈某些任务表现仅与 Qwen3-14B(稠密结构)相当。

因此,这次更新不仅是一个版本迭代,更可能是技术路线的调整,评测结果也印证了其成效。

不过,Qwen 系列的评测数据污染与部分指标无法复现的问题仍令人关注。

Qwen3-235B-A22B-2507 的开源信息与社区反馈

无论如何,阿里已正式开源了 Qwen3-235B-A22B-2507 更新版本。尽管仍有争议,但多数用户实际使用体验良好。

目前已有多个对比评测显示 Qwen3 与 Kimi K2 在不同方向上各有优势,表现都非常强劲。

两者都是开源模型,开发者可自由使用与部署。

相关开源链接如下:

  • Thinking-2507 模型:https://www.datalearner.com/ai-models/pretrained-models/qwen3-235b-A22b-2507-thinking
  • Instruct-2507 模型:https://www.datalearner.com/ai-models/pretrained-models/Qwen3-235B-A22B-Instruct-2507

DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码
返回博客列表

相关博客

  • 重磅!阿里开源2个多模态向量大模型和重排序大模型:Qwen3-VL-Embedding和Qwen3-VL-Reranker,图片和视频也可以用来做RAG了!
  • 模型不能停,阿里又又又又要开源新模型:Qwen3-Next-80B-A3B
  • Qwen3家族新成员:阿里发布自动语音识别大模型Qwen3-ASR-Flash,中英文语音识别错误率低于GPT-4o和Gemini 2.5 Pro!
  • 阿里开源全新编程大模型Qwen3-Coder-480B-A35B,官方宣称其编程水平接近Claude Sonnet 4,免费开源可商用,同时开源Claude Code免费平替选择Qwen Code
  • 为什么Qwen3系列模型中没有720亿参数规模的Qwen3-72B?Qwen3-72B还会发布吗?NO!
  • 重磅!阿里开源第三代千问大模型:Qwen3系列,最小仅6亿参数规模,最大2350亿参数规模大模型!可以根据问题难度自动选择是否带思考过程的大模型,评测超DeepSeek-R1和OpenAI o3
  • 重磅!第二代通义千问大模型开源,阿里巴巴一口气开源了30个不同参数规模的模型,其中Qwen1.5-72B仅次于GPT-4.

热门博客

  • 1Dirichlet Distribution(狄利克雷分布)与Dirichlet Process(狄利克雷过程)
  • 2回归模型中的交互项简介(Interactions in Regression)
  • 3贝塔分布(Beta Distribution)简介及其应用
  • 4矩母函数简介(Moment-generating function)
  • 5普通最小二乘法(Ordinary Least Squares,OLS)的详细推导过程
  • 6使用R语言进行K-means聚类并分析结果
  • 7深度学习技巧之Early Stopping(早停法)
  • 8手把手教你本地部署清华大学的ChatGLM-6B模型——Windows+6GB显卡本地部署