Qwen3-Coder是一个由Qwen团队宣布推出的新型代码模型系列,被定位为他们迄今为止最具智能体(agentic)能力的模型。该系列提供多种尺寸,其中Qwen3-Coder-480B-A35B-Instruct是率先推出并作为其最强大的变体。
主要增强功能包括:
Qwen3-480B-A35B-Instruct模型概览:
- 性能表现: 该模型在智能体编码(Agentic Coding)、智能体浏览器使用(Agentic Browser-Use)以及其他基础编码任务上,在开放模型中展现出显著性能,据称其结果可与Claude Sonnet媲美。
- 长上下文能力: 原生支持256K tokens的上下文长度,并可利用Yarn技术扩展至1M tokens,旨在优化对代码仓库级别(repository-scale)的理解。
- 智能体编码支持: 为Qwen Code、CLINE等多数平台提供智能体编码支持,并采用专门设计的函数调用格式。
特殊说明:
- 类型: 因果语言模型(Causal Language Models)。
- 训练阶段: 经历了预训练(Pretraining)和后训练(Post-training)。
- 参数数量: 总参数量为4800亿(480B),其中激活参数量为350亿(35B),这表明它采用了某种稀疏激活或MoE(Mixture-of-Experts)架构。
- 层数: 62层。
- 注意力头(GQA): 96个查询(Q)头和8个键值(KV)头,使用了分组查询注意力(Grouped Query Attention, GQA)机制。
- 专家数量: 总共有160个专家(Experts),每次激活8个专家。
- 上下文长度: 原生支持262,144 tokens的上下文长度。