Qw

Qwen3-Coder-480B-A35B

编程大模型

Qwen3-Coder-480B-A35B-Instruct

发布时间: 2025-07-23 160

模型参数(Parameters)
4800.0
最高上下文长度(Context Length)
256K
是否支持中文
支持
推理能力(Reasoning)

模型基本信息

是否支持推理过程

不支持

最高上下文输入长度

256K tokens

最长输出结果

16384 tokens

模型类型

编程大模型

发布时间

2025-07-23

模型预文件大小

470.77 GB

推理模式
常规模式(Non-Thinking Mode)

开源和体验地址

代码开源状态
预训练权重开源
Apache 2.0 - 免费商用授权
GitHub 源码
Hugging Face
在线体验

API接口信息

接口速度(满分5分)
接口价格
输入价格:
  • 文本:
  • 图片:
  • 音频:
  • 视频:
  • Embedding:
输出价格:
  • 文本:
  • 图片:
  • 音频:
  • 视频:
  • Embedding:

输入支持的模态

文本

输入支持

图片

输入不支持

视频

输入不支持

音频

输入不支持

Embedding(向量)

输入不支持

输出支持的模态

文本

输出支持

图片

输出不支持

视频

输出不支持

音频

输出不支持

Embedding(向量)

输出不支持

Qwen3-Coder-480B-A35B模型在各大评测榜单的评分

模式 / 类型
normal / 代码生成
评测结果

67.0

模型变体及不同版本下载

Qwen3-Coder-480B-A35B-Instruct
版本类型: Instruct
量化类型: FP8
模型大小: 482.24 GB
备注: Qwen团队开源的编程大模型,该模型格式为FP8,即量化版本,指令优化版本
Qwen3-Coder-480B-A35B-Instruct
版本类型: Instruct
量化类型: FP16
模型大小: 961.27 GB
备注: Qwen团队开源的编程大模型,该模型格式为bf16,指令优化版本

发布机构

模型介绍

Qwen3-Coder是一个由Qwen团队宣布推出的新型代码模型系列,被定位为他们迄今为止最具智能体(agentic)能力的模型。该系列提供多种尺寸,其中Qwen3-Coder-480B-A35B-Instruct是率先推出并作为其最强大的变体。

主要增强功能包括:

    Qwen3-480B-A35B-Instruct模型概览:

    • 性能表现: 该模型在智能体编码(Agentic Coding)、智能体浏览器使用(Agentic Browser-Use)以及其他基础编码任务上,在开放模型中展现出显著性能,据称其结果可与Claude Sonnet媲美。
    • 长上下文能力: 原生支持256K tokens的上下文长度,并可利用Yarn技术扩展至1M tokens,旨在优化对代码仓库级别(repository-scale)的理解。
    • 智能体编码支持: 为Qwen Code、CLINE等多数平台提供智能体编码支持,并采用专门设计的函数调用格式。


    特殊说明:

    • 类型: 因果语言模型(Causal Language Models)。
    • 训练阶段: 经历了预训练(Pretraining)和后训练(Post-training)。
    • 参数数量: 总参数量为4800亿(480B),其中激活参数量为350亿(35B),这表明它采用了某种稀疏激活或MoE(Mixture-of-Experts)架构。
    • 层数: 62层。
    • 注意力头(GQA): 96个查询(Q)头和8个键值(KV)头,使用了分组查询注意力(Grouped Query Attention, GQA)机制。
    • 专家数量: 总共有160个专家(Experts),每次激活8个专家。
    • 上下文长度: 原生支持262,144 tokens的上下文长度。


    关注DataLearnerAI公众号

    关注DataLearnerAI微信公众号,接受最新大模型资讯

    DataLearnerAI WeChat