为什么Qwen3系列模型中没有720亿参数规模的Qwen3-72B?Qwen3-72B还会发布吗?NO!

标签:#Qwen##Qwen2.572B##Qwen3##千问大模型# 时间:2025/06/18 16:23:24 作者:小木

Qwen3是阿里在2025年6月份开源的最新Qwen系列大模型,包含了8个不同参数规模的大模型,最大达到2350亿参数规模,最小仅6亿参数规模。本次发布的Qwen3系列是推理大模型和常规的大模型混合版本。


不过这个系列中没有Qwen3-72B这个版本,而Qwen 72B一直是此前Qwen系列中最强的,如Qwen2.5-72B,一直是开源模型中的标杆,也是开源领域稠密模型参数最高的一类(所谓稠密模型就是非MoE架构)。但很多人依然关心还有没有Qwen3-72B模型?阿里什么时候会发布Qwen3-72B模型,答案是可能再也没有了!

阿里取消了72B这个参数规模的Qwen模型的主要原因在于阿里发现,当模型参数规模超过300亿(30B)的时候,稠密模型的训练和推理效果以及推理效率都非常难优化,因此,超过30B规模的模型,阿里选择使用MoE架构。因此,从Qwen3开始,阿里取消了72B版本的Qwen模型。


上图是阿里Qwen大模型工程师在X的回复。

当然官方说Qwen3-32B模型的能力已经超越Qwen2.5-72B了,所以大家可以选择这个版本代替,更高参数规模,就只能选择2350亿参数规模的Qwen3-235B-A22B了。

欢迎大家关注DataLearner官方微信,接受最新的AI技术推送