QW

Qwen3-Coder-480B-A35B

Qwen3-Coder-480B-A35B-Instruct

发布时间: 2025-07-231,896
模型参数
4800.0亿
上下文长度
256K
中文支持
支持
推理能力

模型基本信息

推理过程
不支持
上下文长度
256K tokens
最大输出长度
16384 tokens
模型类型
暂无数据
发布时间
2025-07-23
模型文件大小
470.77 GB
MoE架构
总参数 / 激活参数
4800.0 亿 / 350 亿
知识截止
暂无数据
推理模式
常规模式(Non-Thinking Mode)

开源和体验地址

代码开源状态
预训练权重开源
Apache 2.0- 免费商用授权

官方介绍与博客

API接口信息

接口速度
3/5
暂无公开的 API 定价信息。

评测得分

编程与软件工程

共 1 项评测
评测名称 / 模式
得分
排名/总数
67
39 / 72

AI Agent - 工具使用

共 1 项评测
评测名称 / 模式
得分
排名/总数
37.50
15 / 35

综合评估

共 1 项评测
评测名称 / 模式
得分
排名/总数
LiveBenchnormal
61.66
41 / 52

模型变体及不同版本下载

变体名称版本类型量化类型模型大小HuggingFace 地址
Qwen3-Coder-480B-A35B-Instructℹ️InstructFP8482.24 GB下载地址
Qwen3-Coder-480B-A35B-Instructℹ️InstructFP16961.27 GB下载地址

发布机构

模型解读

Qwen3-Coder是一个由Qwen团队宣布推出的新型代码模型系列,被定位为他们迄今为止最具智能体(agentic)能力的模型。该系列提供多种尺寸,其中Qwen3-Coder-480B-A35B-Instruct是率先推出并作为其最强大的变体。

主要增强功能包括:

    Qwen3-480B-A35B-Instruct模型概览:

    • 性能表现: 该模型在智能体编码(Agentic Coding)、智能体浏览器使用(Agentic Browser-Use)以及其他基础编码任务上,在开放模型中展现出显著性能,据称其结果可与Claude Sonnet媲美。
    • 长上下文能力: 原生支持256K tokens的上下文长度,并可利用Yarn技术扩展至1M tokens,旨在优化对代码仓库级别(repository-scale)的理解。
    • 智能体编码支持: 为Qwen Code、CLINE等多数平台提供智能体编码支持,并采用专门设计的函数调用格式。


    特殊说明:

    • 类型: 因果语言模型(Causal Language Models)。
    • 训练阶段: 经历了预训练(Pretraining)和后训练(Post-training)。
    • 参数数量: 总参数量为4800亿(480B),其中激活参数量为350亿(35B),这表明它采用了某种稀疏激活或MoE(Mixture-of-Experts)架构。
    • 层数: 62层。
    • 注意力头(GQA): 96个查询(Q)头和8个键值(KV)头,使用了分组查询注意力(Grouped Query Attention, GQA)机制。
    • 专家数量: 总共有160个专家(Experts),每次激活8个专家。
    • 上下文长度: 原生支持262,144 tokens的上下文长度。


    DataLearner 官方微信

    欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

    DataLearner 官方微信二维码