QW

Qwen3-Coder-Flash

Qwen3-Coder-30B-A3B-Instruct

发布时间: 2025-07-31878
模型参数
305.0亿
上下文长度
1000K
中文支持
支持
推理能力

模型基本信息

推理过程
不支持
上下文长度
1000K tokens
最大输出长度
16384 tokens
模型类型
编程大模型
发布时间
2025-07-31
模型文件大小
61.09 GB
MoE架构
总参数 / 激活参数
305.0 亿 / 33 亿
知识截止
暂无数据
推理模式
常规模式(Non-Thinking Mode)

开源和体验地址

代码开源状态
预训练权重开源
Apache 2.0- 免费商用授权

官方介绍与博客

官方论文
暂无官方论文
DataLearnerAI博客
暂无介绍博客

API接口信息

接口速度
3/5
💡默认单位:$/100万 tokens。若计费单位不同,则以供应商公开的原始标注为准。
标准计费Standard
模态输入输出
文本$0.4$1.6

评测得分

编程与软件工程

共 1 项评测
评测名称 / 模式
得分
排名/总数
51.60
57 / 72

AI Agent - 工具使用

共 1 项评测
评测名称 / 模式
得分
排名/总数
31.30
19 / 35

发布机构

模型解读

这是一个由阿里巴巴通义千问团队发布的、属于 Qwen3 系列的最新代码模型。它的全名 Qwen3-Coder-30B-A3B-Instruct 表明了其关键特性:

  • Qwen3-Coder: 属于第三代 Qwen 系列,专为编码(Coding)任务优化。
  • 30B-A3B: 这是一个采用专家混合(MoE, Mixture-of-Experts)架构的模型。总参数量约为300亿(30.5B),但在每次推理时,只激活约30亿(3.3B)的参数。这种设计旨在以较低的计算成本实现强大的性能。
  • Instruct: 表示该模型经过了指令微调,能更好地理解和遵循用户的指令。

核心亮点

  1. 卓越的智能体(Agent)能力:

智能体编码 (Agentic Coding): 该模型在需要自主规划和执行复杂编码任务方面表现出色,在开源模型中处于领先地位。

智能体浏览器使用 (Agentic Browser-Use): 除了编码,它还具备操作和理解浏览器内容的能力,可用于自动化网页任务。

专用的函数调用格式: 为了支持其强大的智能体能力,它设计了一种特殊的函数调用(Function Call)格式,使其能与 Qwen Code、CLINE 等平台无缝集成。

  1. 超长上下文处理能力:模型原生支持 256K(即 262,144)tokens 的超长上下文窗口。通过 Yarn 等技术,其上下文长度可以进一步扩展到 100万(1M)tokens。这个特性使其非常适合处理和理解整个代码仓库(repository-scale)级别的代码,进行更全面的分析和生成。

模型概览与技术规格

  • 模型类型: 因果语言模型(Causal Language Model),即根据前面的文本预测下一个词。
  • 参数量305亿 (30.5B),每次推理激活33亿
  • 架构细节:
    • 网络层数: 48层
    • 注意力头: 采用了分组查询注意力(GQA)机制来提升效率。查询(Q)有32个头,而键/值(KV)共享4个头。
    • 专家数量: 总共 128 个专家,每次推理时激活其中的 8 个。这是其 MoE 架构的具体实现。
  • 上下文长度: 原生支持 262,144 tokens

重要使用说明

  • 该模型仅支持“非思考模式”(non-thinking mode)。这意味着它在生成结果时,不会像某些智能体模型一样输出包含 <think></think> 标签的中间思考过程。
  • 由于这是模型的默认行为,用户在调用时不再需要手动设置 enable_thinking=False 参数。

总结

Qwen3-Coder-30B-A3B-Instruct 是一款高效且功能强大的开源代码模型。它通过采用 MoE 架构,在保持较低推理成本的同时,实现了在智能体编码、超长上下文理解等前沿领域的顶尖性能。对于需要处理大规模代码库或开发复杂代码智能体的开发者来说,这是一个非常有吸引力的选择。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码