模型不能停,阿里又又又又要开源新模型:Qwen3-Next-80B-A3B

继阿里刚发布Qwen3-ASR模型之后,Qwen团队又在社区提交了全新的Qwen3-Next代码。这意味着阿里即将开源Qwen3家族的新成员。这个模型最大的特点是架构变化很大,与此前Qwen系列很不一样。

阿里即将发布Qwen3-Next-80B-A3B大模型

[TOC]

一、模型基本信息:Qwen3-Next-80B-A3B

根据提交内容显示,即将发布的模型命名为 Qwen3-Next-80B-A3B。该模型采用极为稀疏的混合专家架构(MoE),总参数量达到 800 亿,但每次推理仅激活 30 亿 参数,实现了极高的计算效率。

根据阿里提交的文件显示,Qwen3-Next系列是阿里下一代基础模型,其核心设计目标是实现极致的上下文长度和超大规模参数下的高效能。

The Qwen3-Next series represents our next-generation foundation models, optimized for extreme context length and large-scale parameter efficiency.

二、Qwen3-Next-80B-A3B的MoE架构与激进的稀疏策略

此外,这份文本还显示这个MoE的激活比例为1:50,大概率意味着总共有50个专家,每次激活1个,那么一个专家的参数量约为16亿,再加上共享的注意力/嵌入等,每次激活30亿参数是合理的。

1:50 的激活比例在当前主流大模型中极为罕见,属于非常激进的设计策略,显示出阿里在推理效率优化方面的技术信心。

三、Qwen3-Next-80B-A3B性能表现:对比Qwen3-32B的三大优势

尽管目前没有具体的Qwen3-Next-80B-A3B模型的评测数据,但是阿里特别提到Qwen3-Next-80B-A3B与Qwen3-32B模型的对比,有3大优势:

  1. 下游任务性能更强:效果上超越参数量更小的Qwen3-32B稠密模型;
  2. 训练成本大幅降低:不到Qwen3-32B训练成本的 1/10
  3. 长上下文推理吞吐量显著提升:在处理超过32K tokens的长文本时,推理吞吐量比Qwen3-32B 高出10倍以上

阿里特别强调“extreme context length”和长文本下的吞吐量提升,说明Qwen团队很有信心认为Qwen3-Next在架构上可以更好地提升性能和处理更长的上下文。

四、Qwen3-Next-80B-A3B核心技术架构创新

相比较当前Qwen3架构,Qwen3-Next的主要技术架构创新包括:

1)、更加激进的稀疏混合专家架构

此前的Qwen3系列模型的激活参数比大约是1:10,而Qwen3-Next达到了1:50,十分激进。高稀疏度意味着模型需要更精准的“路由算法”来决定调用哪个专家,否则性能会下降。阿里显然在路由策略上取得了突破。

2)、采用混合注意力机制 (Hybrid Attention)替代标准的自注意力机制

传统Transformer处理长文本时(比如一本书),需要计算每个字与其他所有字的关联(注意力),计算量随文本长度平方增长,又慢又耗资源。Qwen3-Next引入了两种新机制:

  • Gated Attention:像“主驾驶”,负责抓取关键局部信息,高效直接。
  • Gated DeltaNet(基于SSM):像“副驾驶”,用状态空间模型(SSM)以线性效率建模长期依赖,记住整本书的脉络。

这是对Transformer核心组件的重构,而非小修小补。SSM(状态空间模型)是近年来挑战Transformer的重要方向(如Mamba模型),阿里将其与传统注意力融合,属于 Hybrid 架构的领先实践。说明阿里没有完全押注一个架构,而是通过混合方案平衡效率和性能,更务实也更具扩展性。

3)、 多令牌预测(MTP):从“逐字写”到“逐句写”

Qwen3-Next采用了MTP(Multi-Token Prediction)技术。传统语言模型像“单字打字机”,每次只预测下一个字(token),之后再把生成的字作为输入继续预测,容易出错且效率低。MTP技术让模型在预训练时就练习“一次写多个字”,同时预测后续多个token。这样模型学会了更好的语言规划和长程逻辑,输出更连贯,训练效率也更高。

这是对经典“下一token预测”训练范式的突破,DeepSeek V3 也采用了类似技术,可能成为下一代预训练的标准配置。

五、不止于单一模型:Qwen3-Next 是一个架构系列

阿里将Qwen3-Next称为一个“系列”(series),并强调其代表了一套统一的“架构创新套件”(suite of architectural innovations),而不是单一模型。这意味着Qwen3-Next将是一个系列多个模型,而不仅仅是即将开源的Qwen3-Next-80B-A3B。

原文明确说“replaces standard attention”(取代标准注意力)并引入了“suite of architectural innovations”(一套架构创新)。这不仅仅是微调或改进,而是对Transformer核心组件的替换和重构。它的发布意味着阿里通义千问正在进行一次激进的架构切换,旨在通过一套统一的、高效的、可扩展的混合技术栈,来打造整个下一代模型家族,从而在技术路线和生态竞争上同时取得领先优势。

该系列的发布,将有望在长上下文处理、训练与推理成本、扩展性等多个关键维度树立新的竞争标准,进一步强化阿里在开源大模型领域的领先地位,十分期待它的正式发布。

关于Qwen3-Next-80B-A3B未来的开源地址和其它参数信息,可以关注DataLearnerAI的Qwen3-Next-80B-A3B模型信息卡:https://www.datalearner.com/ai-models/pretrained-models/Qwen3-Next-80B-A3B

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码