加载中...
加载中...
本页面提供大模型代码编程能力评测排行榜,涵盖 SWE-Bench、LiveCodeBench、HumanEval 等数据集,对 GPT、Claude、Qwen、DeepSeek 等模型进行对比。
| 0.00 |
| 33.30 |
| 80.50 |
| 3 | Qwen2.5-72B | 0.00 | 0.00 | 59.10 |
| 4 | Hunyuan-A13B-Instruct | 0.00 | 63.90 | 0.00 |
| 5 | Pangu Pro MoE | 0.00 | 59.60 | 0.00 |
| 6 | Qwen3-Next | 0.00 | 56.60 | 0.00 |