DataLearner logoDataLearnerAI
AI Tech Blogs
Leaderboards
Benchmarks
Models
Resources
Tool Directory

加载中...

DataLearner logoDataLearner AI

A knowledge platform focused on LLM benchmarking, datasets, and practical instruction with continuously updated capability maps.

产品

  • Leaderboards
  • 模型对比
  • Datasets

资源

  • Tutorials
  • Editorial
  • Tool directory

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner curates industry data and case studies so researchers, enterprises, and developers can rely on trustworthy intelligence.

隐私政策服务条款
Contents
Contents
  1. Home/
  2. Blog List/
  3. Blog Detail

阿里开源全新编程大模型Qwen3-Coder-480B-A35B,官方宣称其编程水平接近Claude Sonnet 4,免费开源可商用,同时开源Claude Code免费平替选择Qwen Code

2025/07/23 08:30:01
783 views
Agentic编程Qwen-CoderQwen3编程大模型

DataLearner WeChat

Follow DataLearner WeChat for the latest AI updates

DataLearner 官方微信二维码
Back to Blog List

Related Blogs

重磅!阿里开源2个多模态向量大模型和重排序大模型:Qwen3-VL-Embedding和Qwen3-VL-Reranker,图片和视频也可以用来做RAG了!模型不能停,阿里又又又又要开源新模型:Qwen3-Next-80B-A3BQwen3家族新成员:阿里发布自动语音识别大模型Qwen3-ASR-Flash,中英文语音识别错误率低于GPT-4o和Gemini 2.5 Pro!阿里发布Qwen3小幅更新版本,放弃混合思考模式,发布全新的2个版本Qwen3-235B-A22B-2507模型,1/5的参数,性能直逼Kimi K2,推理模式版本评测结果接近o3为什么Qwen3系列模型中没有720亿参数规模的Qwen3-72B?Qwen3-72B还会发布吗?NO!重磅!阿里开源第三代千问大模型:Qwen3系列,最小仅6亿参数规模,最大2350亿参数规模大模型!可以根据问题难度自动选择是否带思考过程的大模型,评测超DeepSeek-R1和OpenAI o3MiniMaxAI开源MiniMax M2模型:Artificial Analysis评测显示综合智能得分超过Claude Opus 4.1,开源第一,全球第五。MistralAI发布全新编程大模型:24B开源Devstral Small 1.1在SWE-Bench Verified评分超过旧版DeepSeek R1,编程大模型新的替代HumanEval评测接近GPT-4-Turbo!阿里巴巴开源70亿参数编程大模型CodeQwen1.5-7B!全球首个AI软件工程师问世:可以自己训练微调大模型的AI软件工程师Devin简介

Hot Blogs

1Dirichlet Distribution(狄利克雷分布)与Dirichlet Process(狄利克雷过程)2回归模型中的交互项简介(Interactions in Regression)3贝塔分布(Beta Distribution)简介及其应用4矩母函数简介(Moment-generating function)5普通最小二乘法(Ordinary Least Squares,OLS)的详细推导过程6使用R语言进行K-means聚类并分析结果7深度学习技巧之Early Stopping(早停法)8H5文件简介和使用9手把手教你本地部署清华大学的ChatGLM-6B模型——Windows+6GB显卡本地部署10Wishart分布简介

阿里宣布开源第三代编程大模型Qwen3-Coder-480B-A35B,该模型是Qwen3编程大模型中第一个开源的版本,同时官方还基于Google的Gemini CLI改造并开源了阿里自己的命令行编程工具Qwen Code,完全免费使用。

  • Qwen3-Coder-480B-A35B介绍及其特点
  • Qwen3-Coder-480B-A35B评测结果与Claude Sonnet 4相当
  • Agentic Coding
  • Agentic Browser Use
  • Agentic Tool Use
  • Claude Code平替:阿里开源Qwen Code
  • Qwen3-Coder开源情况和其它信息

Qwen3-Coder-480B-A35B介绍及其特点

阿里宣称本次开源的Qwen3-Coder-480B-A35B模型是一个Agentic Code模型,也就是说不单纯的是认为用来生成代码的,而是支持工具调用的编程Agent模型。

本次开源的Qwen3-Coder-480B-A35B是一个混合专家架构(MoE)模型,其总参数4800亿,每次推理激活350亿参数。而且是一个由很多数量的小专家组成的模型,共160个专家,每次推理激活其中的8个。

Qwen3-Coder-480B-A35B原生支持256K上下文输入,利用YaRN技术可以扩展到最高100万,这样长度的上下文非常适合用力对整个代码仓级别的内容进行理解,大大拓展了模型的实际应用价值。

不过,需要注意的是,首先Qwen3-Coder-480B-A35B的语言基座模型在此前的Qwen3的开源中并没发现,且该模型仅支持非推理模式(non-thinking)。即其输出不生成<think></think>块。因此,在使用时不再需要明确指定enable_thinking=False。

Qwen3-Coder-480B-A35B评测结果与Claude Sonnet 4相当

阿里官方对于该模型十分自信,认为这是开源模型中顶尖的一类,特别是在Agentic Coding, Agentic Browser-Use, 和Agentic Tool-Use方面,水平与Claude Sonnet 4相当。也就说,这个模型是为Agentic编程而生。

以SWE-Bench Verified为例(OpenAI基于公开的SWE-Bench人工选择的一个来自GitHub真实项目案例的评测基准),Qwen3-Coder-480B-A35B获得了67.0%的得分,如果允许Qwen3-Coder-480B-A35B对话到500次,它的准确性可以达到69.6%。

下图展示了SWE-Bench Verified模型在SWE-Bench Verified排名情况:

DataLearnerAI的SWE-Bench Verified排行榜:
DataLearnerAI的SWE-Bench Verified排行榜:
数据来源DataLearnerAI的SWE-Bench Verified排行榜:https://www.datalearner.com/ai-benchmarks/swe-bench%20verified

可以看到,尽管Qwen3-Coder-480B-A35B排名第十,但是这已经是开源模型中的第一,前面的模型都是OpenAI、Claude和Grok模型,且都是当前全球最强的模型,同时都是带推理模式的大模型,此外,还有使用外部工具或者增加推理时长得到。

即使单看67分的结果,与OpenAI o3的分数差距也不大。

以下表格展示了不同模型在Agentic编程、浏览器使用和工具使用方面的基准测试结果。

Agentic Coding

BenchmarksOwen3-Coder
(480B-A35B-Instruct)
Kimi-K2
(Instruct)
DeepSeek-V3
(0324)
Claude
(Sonnet-4)
OpenAI
(GPT-4.1)
Terminal-Bench37.530.02.535.525.3
SWE-bench Verified69.6--70.4-
w/ OpenHands, 500 turns67.065.438.868.048.6
w/ OpenHands, 100 turns-65.8-72.763.8
w/ Private Scaffolding26.322.313.027.7-
SWE-bench Live54.747.313.053.331.5
SWE-bench Multilingual25.819.87.524.8-
Multi-SWE-bench mini27.020.7-25.0-
Multi-SWE-bench flash61.860.056.956.452.4
Aider-Polyglot31.125.212.831.116.5
Spider2

Agentic Browser Use

BenchmarksOwen3-Coder
(480B-A35B-Instruct)
Kimi-K2
(Instruct)
DeepSeek-V3
(0324)
Claude
(Sonnet-4)
OpenAI
(GPT-4.1)
WebArena49.947.440.051.144.3
Mind2Web55.842.736.047.449.6

Agentic Tool Use

BenchmarksOwen3-Coder
(480B-A35B-Instruct)
Kimi-K2
(Instruct)
DeepSeek-V3
(0324)
Claude
(Sonnet-4)
OpenAI
(GPT-4.1)
BFCL-v368.765.256.973.362.9
TAU-Bench Retail77.570.759.180.5-
TAU-Bench Airline60.053.540.060.0-

Claude Code平替:阿里开源Qwen Code

随着Anthropic发布Claude Code,越来越多的人发现使用命令行对整个代码仓进行自然语言交互式的编程很方便很强大。它可以无需关注单个文件,只需要输入你的需求,就能让模型理解代码仓的基础上进行跨文件的编程。

但是Claude Code是闭源的,需要月付费至少100美元才能比较好的体验使用。Google虽然发布了的Gemini CLI,但是目前国内以及体验方面还是较弱。本次阿里也是顺应趋势,fork了Gemini CLI项目,然后改造成可以直接对接Qwen3-Coder模型的命令行Agentic编程工具。

Qwen Code开源地址:https://github.com/QwenLM/qwen-code

这意味着,如果你可以本地化部署一个Qwen3-Coder-480B-A35B,那么你可以无限制免费使用Agentic编程了。不过这个成本也不低,即使使用FP8量化版本,也需要500GB+显存才体验好。不过不用担心,Qwen团队官方说Qwen3-Coder是一个系列,会有更小的版本发布!

同时,Qwen团队也在积极适配 Claude Code、提供 Cline 插件等,可以说在生态集成方面是要促进Qwen3-Coder的加速落地。

Qwen3-Coder开源情况和其它信息

Qwen系列一直在业界有很好的口碑,而Qwen Coder一直也是很多人的期待。阿里官方明确提到“Coding Agent 能否自我改进”是下一阶段方向,本次开源的Qwen3-Coder-480B-A35B也显示了结合长程 RL 和可执行反馈,模型自己写测试、修 bug、迭代自身代码的路径已经铺好,只差工程化闭环。

阿里直接把Claude Sonnet 4当对标物,且认为差距已很小。在公开基准(Agentic Coding / Browser-Use / Tool-Use / SWE-Bench Verified)拿到“开源第一、逼近 Claude Sonnet 4”的成绩。即将出现可以平替闭源顶尖模型的AgenticCode模型以及工具!

更多Qwen3-Coder-480B-A35B信息和开源地址参考DataLearnerAI的模型信息卡:https://www.datalearner.com/ai-models/pretrained-models/Qwen3-Coder-480B-A35B-Instruct