加载中...
加载中...
对比大模型在 MMLU Pro、HLE、SWE-Bench 等评测上的表现,选择评测查看排名。
各个评测基准的详细介绍可见:LLM 评测基准列表与介绍
评测切换
在这里切换评测,图表和表格会同步更新
还有更多评测基准
进入评测基准列表,按类别/语言快速筛选
| 0.00 |
| 0.00 |
| 3 | Grok 4 Code | 0.00 | 0.00 | 72.00 | 0.00 | 0.00 | 0.00 |
| 4 | Grok Code Fast 1 | 0.00 | 0.00 | 70.80 | 0.00 | 0.00 | 0.00 |
| 5 | Qwen3-Coder-Next | 0.00 | 0.00 | 70.60 | 0.00 | 0.00 | 0.00 |
| 6 | GPT-5.1 Codex | 0.00 | 0.00 | 70.40 | 0.00 | 0.00 | 85.50 |
| 7 | Qwen3-Coder-480B-A35B | 0.00 | 0.00 | 67.00 | 0.00 | 0.00 | 0.00 |
| 8 | Devstral Medium | 0.00 | 0.00 | 61.60 | 0.00 | 0.00 | 0.00 |
| 9 | Devstral Small 1.1 | 0.00 | 0.00 | 53.60 | 0.00 | 0.00 | 0.00 |
| 10 | Qwen3-Coder-Flash | 0.00 | 0.00 | 51.60 | 0.00 | 0.00 | 0.00 |
| 11 | Devstral Small 1.0 | 0.00 | 0.00 | 46.80 | 0.00 | 0.00 | 0.00 |
| 12 | Codestral 25.01 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 37.90 |
| 13 | Codestral | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 | 31.50 |