加载中...
加载中...
本页面提供大模型代码编程能力评测排行榜,涵盖 SWE-Bench、LiveCodeBench、HumanEval 等数据集,对 GPT、Claude、Qwen、DeepSeek 等模型进行对比。
| 0.00 |
| 0.00 |
| 66.50 |
| 3 | Qwen2.5-7B | 0.00 | 0.00 | 57.90 |
| 4 | Gemma 2 - 9B | 0.00 | 0.00 | 37.80 |
| 5 | Llama3.1-8B | 0.00 | 0.00 | 33.50 |
| 6 | Mistral-7B-Instruct-v0.3 | 0.00 | 0.00 | 29.30 |
| 7 | Pangu Embedded | 0.00 | 67.10 | 0.00 |
| 8 | Qwen3-8B | 0.00 | 61.80 | 0.00 |
| 9 | Hunyuan-7B | 0.00 | 57.00 | 0.00 |
| 10 | Qwen3-4B-Thinking-2507 | 0.00 | 55.20 | 0.00 |
| 11 | GLM-4-9B-Chat | 0.00 | 51.80 | 0.00 |
| 12 | Qwen3-4B-2507 | 0.00 | 35.10 | 0.00 |