加载中...
加载中...
对比大模型在 MMLU Pro、HLE、SWE-Bench 等评测上的表现,选择评测查看排名。
各个评测基准的详细介绍可见:LLM 评测基准列表与介绍
评测切换
在这里切换评测,图表和表格会同步更新
还有更多评测基准
进入评测基准列表,按类别/语言快速筛选
| 0.00 |
| 0.00 |
| 3 | Llama3.1-405B Instruct | 73.40 | 49.00 | 0.00 | 0.00 | 0.00 | 30.20 |
| 4 | Phi 4 - 14B | 70.40 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 |
| 5 | Qwen2.5-32B | 69.23 | 0.00 | 0.00 | 0.00 | 0.00 | 51.20 |
| 6 | Hunyuan-A13B-Instruct | 67.23 | 71.20 | 0.00 | 0.00 | 87.30 | 63.90 |
| 7 | Mistral-Small-3.1-24B-Instruct-2503 | 66.76 | 45.96 | 0.00 | 0.00 | 0.00 | 0.00 |
| 8 | Llama3.1-70B-Instruct | 66.40 | 48.00 | 0.00 | 0.00 | 0.00 | 33.30 |
| 9 | Claude 3.5 Haiku | 65.00 | 41.60 | 0.00 | 0.00 | 0.00 | 0.00 |
| 10 | Qwen2.5-14B | 63.69 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 |
| 11 | GPT-4o mini | 61.70 | 41.10 | 0.00 | 0.00 | 0.00 | 0.00 |
| 12 | Llama3.1-405B | 61.60 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 |
| 13 | Gemma 3 - 12B (IT) | 60.60 | 40.90 | 0.00 | 0.00 | 0.00 | 24.60 |
| 14 | Qwen2.5-72B | 58.10 | 45.90 | 0.00 | 0.00 | 0.00 | 0.00 |
| 15 | Gemma2-27B | 56.54 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 |
| 16 | Llama3.1-70B | 52.47 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 |
| 17 | Qwen2.5-7B | 45.00 | 36.40 | 0.00 | 0.00 | 0.00 | 0.00 |
| 18 | Gemma 2 - 9B | 44.70 | 32.80 | 0.00 | 0.00 | 0.00 | 0.00 |
| 19 | Llama3.1-8B | 35.40 | 25.80 | 0.00 | 0.00 | 0.00 | 0.00 |
| 20 | Qwen2.5-3B | 34.60 | 24.30 | 0.00 | 0.00 | 0.00 | 0.00 |
| 21 | Llama-3.2-3B | 25.00 | 26.60 | 0.00 | 0.00 | 0.00 | 0.00 |
| 22 | GPT-5 | 0.00 | 87.30 | 72.80 | 0.00 | 0.00 | 0.00 |
| 23 | Grok 3 mini | 0.00 | 65.00 | 0.00 | 0.00 | 40.00 | 0.00 |