加载中...

大模型代码编程能力评测排行榜

本页面提供大模型代码编程能力评测排行榜，涵盖 SWE-Bench、LiveCodeBench、HumanEval 等数据集，对 GPT、Claude、Qwen、DeepSeek 等模型进行对比。

数据更新于: 2025/10/12 20:54:51

数据来源：DataLearnerAI

排名	模型	SWE-bench Verified	LiveCodeBench	HumanEval	参数(亿)	开源情况
1	GPT OSS 120B	60.10	0.00	0.00	117B	免费商用
2	Moonlight-16B-A3B-Instruct