加载中...

大模型代码编程能力评测排行榜

本页面提供大模型代码编程能力评测排行榜，涵盖 SWE-Bench、LiveCodeBench、HumanEval 等数据集，对 GPT、Claude、Qwen、DeepSeek 等模型进行对比。

Updated on: 2025/10/12 20:54:51

Data source: DataLearnerAI

Rank	Model	SWE-bench Verified	LiveCodeBench	HumanEval	Params (B)	License
1	Phi-4-mini-instruct (3.8B)	0.00	0.00	74.40	38B	Free commercial
2	Qwen2.5-3B