DataLearner 标志DataLearnerAI
最新AI资讯
大模型评测
大模型列表
大模型对比
资源中心
AI工具导航

加载中...

DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
目录
目录
  1. 首页/
  2. 博客列表/
  3. 博客详情

模型不能停,阿里又又又又要开源新模型:Qwen3-Next-80B-A3B

2025/09/10 04:24:02
1,226 阅读
Qwen3Qwen3-NextQwen3-Next-80B-A3B

继阿里刚发布Qwen3-ASR模型之后,Qwen团队又在社区提交了全新的Qwen3-Next代码。这意味着阿里即将开源Qwen3家族的新成员。这个模型最大的特点是架构变化很大,与此前Qwen系列很不一样。

阿里即将发布Qwen3-Next-80B-A3B大模型
阿里即将发布Qwen3-Next-80B-A3B大模型
  • 一、模型基本信息:Qwen3-Next-80B-A3B
  • 二、Qwen3-Next-80B-A3B的MoE架构与激进的稀疏策略
  • 三、Qwen3-Next-80B-A3B性能表现:对比Qwen3-32B的三大优势
  • 四、Qwen3-Next-80B-A3B核心技术架构创新
  • 1)、更加**激进的稀疏混合专家架构**
  • 2)、采用**混合注意力机制** (Hybrid Attention)替代标准的自注意力机制
  • 3)、 多令牌预测(MTP):从“逐字写”到“逐句写”
  • 五、不止于单一模型:Qwen3-Next 是一个架构系列

一、模型基本信息:Qwen3-Next-80B-A3B

根据提交内容显示,即将发布的模型命名为 Qwen3-Next-80B-A3B。该模型采用极为稀疏的混合专家架构(MoE),总参数量达到 800 亿,但每次推理仅激活 30 亿 参数,实现了极高的计算效率。

根据阿里提交的文件显示,Qwen3-Next系列是阿里下一代基础模型,其核心设计目标是实现极致的上下文长度和超大规模参数下的高效能。

The Qwen3-Next series represents our next-generation foundation models, optimized for extreme context length and large-scale parameter efficiency.

二、Qwen3-Next-80B-A3B的MoE架构与激进的稀疏策略

此外,这份文本还显示这个MoE的激活比例为1:50,大概率意味着总共有50个专家,每次激活1个,那么一个专家的参数量约为16亿,再加上共享的注意力/嵌入等,每次激活30亿参数是合理的。

1:50 的激活比例在当前主流大模型中极为罕见,属于非常激进的设计策略,显示出阿里在推理效率优化方面的技术信心。

三、Qwen3-Next-80B-A3B性能表现:对比Qwen3-32B的三大优势

尽管目前没有具体的Qwen3-Next-80B-A3B模型的评测数据,但是阿里特别提到Qwen3-Next-80B-A3B与Qwen3-32B模型的对比,有3大优势:

  1. 下游任务性能更强:效果上超越参数量更小的Qwen3-32B稠密模型;
  2. 训练成本大幅降低:不到Qwen3-32B训练成本的 1/10;
  3. 长上下文推理吞吐量显著提升:在处理超过32K tokens的长文本时,推理吞吐量比Qwen3-32B 高出10倍以上。

阿里特别强调“extreme context length”和长文本下的吞吐量提升,说明Qwen团队很有信心认为Qwen3-Next在架构上可以更好地提升性能和处理更长的上下文。

四、Qwen3-Next-80B-A3B核心技术架构创新

相比较当前Qwen3架构,Qwen3-Next的主要技术架构创新包括:

1)、更加激进的稀疏混合专家架构

此前的Qwen3系列模型的激活参数比大约是1:10,而Qwen3-Next达到了1:50,十分激进。高稀疏度意味着模型需要更精准的“路由算法”来决定调用哪个专家,否则性能会下降。阿里显然在路由策略上取得了突破。

2)、采用混合注意力机制 (Hybrid Attention)替代标准的自注意力机制

传统Transformer处理长文本时(比如一本书),需要计算每个字与其他所有字的关联(注意力),计算量随文本长度平方增长,又慢又耗资源。Qwen3-Next引入了两种新机制:

  • Gated Attention:像“主驾驶”,负责抓取关键局部信息,高效直接。
  • Gated DeltaNet(基于SSM):像“副驾驶”,用状态空间模型(SSM)以线性效率建模长期依赖,记住整本书的脉络。

这是对Transformer核心组件的重构,而非小修小补。SSM(状态空间模型)是近年来挑战Transformer的重要方向(如Mamba模型),阿里将其与传统注意力融合,属于 Hybrid 架构的领先实践。说明阿里没有完全押注一个架构,而是通过混合方案平衡效率和性能,更务实也更具扩展性。

3)、 多令牌预测(MTP):从“逐字写”到“逐句写”

Qwen3-Next采用了MTP(Multi-Token Prediction)技术。传统语言模型像“单字打字机”,每次只预测下一个字(token),之后再把生成的字作为输入继续预测,容易出错且效率低。MTP技术让模型在预训练时就练习“一次写多个字”,同时预测后续多个token。这样模型学会了更好的语言规划和长程逻辑,输出更连贯,训练效率也更高。

这是对经典“下一token预测”训练范式的突破,DeepSeek V3 也采用了类似技术,可能成为下一代预训练的标准配置。

五、不止于单一模型:Qwen3-Next 是一个架构系列

阿里将Qwen3-Next称为一个“系列”(series),并强调其代表了一套统一的“架构创新套件”(suite of architectural innovations),而不是单一模型。这意味着Qwen3-Next将是一个系列多个模型,而不仅仅是即将开源的Qwen3-Next-80B-A3B。

原文明确说“replaces standard attention”(取代标准注意力)并引入了“suite of architectural innovations”(一套架构创新)。这不仅仅是微调或改进,而是对Transformer核心组件的替换和重构。它的发布意味着阿里通义千问正在进行一次激进的架构切换,旨在通过一套统一的、高效的、可扩展的混合技术栈,来打造整个下一代模型家族,从而在技术路线和生态竞争上同时取得领先优势。

该系列的发布,将有望在长上下文处理、训练与推理成本、扩展性等多个关键维度树立新的竞争标准,进一步强化阿里在开源大模型领域的领先地位,十分期待它的正式发布。

关于Qwen3-Next-80B-A3B未来的开源地址和其它参数信息,可以关注DataLearnerAI的Qwen3-Next-80B-A3B模型信息卡:https://www.datalearner.com/ai-models/pretrained-models/Qwen3-Next-80B-A3B

DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码
返回博客列表

相关博客

  • 重磅!阿里开源2个多模态向量大模型和重排序大模型:Qwen3-VL-Embedding和Qwen3-VL-Reranker,图片和视频也可以用来做RAG了!
  • Qwen3家族新成员:阿里发布自动语音识别大模型Qwen3-ASR-Flash,中英文语音识别错误率低于GPT-4o和Gemini 2.5 Pro!
  • 阿里发布Qwen3小幅更新版本,放弃混合思考模式,发布全新的2个版本Qwen3-235B-A22B-2507模型,1/5的参数,性能直逼Kimi K2,推理模式版本评测结果接近o3
  • 阿里开源全新编程大模型Qwen3-Coder-480B-A35B,官方宣称其编程水平接近Claude Sonnet 4,免费开源可商用,同时开源Claude Code免费平替选择Qwen Code
  • 为什么Qwen3系列模型中没有720亿参数规模的Qwen3-72B?Qwen3-72B还会发布吗?NO!
  • 重磅!阿里开源第三代千问大模型:Qwen3系列,最小仅6亿参数规模,最大2350亿参数规模大模型!可以根据问题难度自动选择是否带思考过程的大模型,评测超DeepSeek-R1和OpenAI o3

热门博客

  • 1Dirichlet Distribution(狄利克雷分布)与Dirichlet Process(狄利克雷过程)
  • 2回归模型中的交互项简介(Interactions in Regression)
  • 3贝塔分布(Beta Distribution)简介及其应用
  • 4矩母函数简介(Moment-generating function)
  • 5普通最小二乘法(Ordinary Least Squares,OLS)的详细推导过程
  • 6使用R语言进行K-means聚类并分析结果
  • 7深度学习技巧之Early Stopping(早停法)
  • 8手把手教你本地部署清华大学的ChatGLM-6B模型——Windows+6GB显卡本地部署