加载中...
加载中...
对比大模型在 MMLU Pro、HLE、SWE-Bench 等评测上的表现,选择评测查看排名。
各个评测基准的详细介绍可见:LLM 评测基准列表与介绍
评测切换
在这里切换评测,图表和表格会同步更新
还有更多评测基准
进入评测基准列表,按类别/语言快速筛选
| 0.00 |
| 0.00 |
| 33.30 |
| 3 | Hunyuan-A13B-Instruct | 67.23 | 71.20 | 0.00 | 0.00 | 87.30 | 63.90 |
| 4 | Llama3.1-70B-Instruct | 66.40 | 48.00 | 0.00 | 0.00 | 0.00 | 33.30 |
| 5 | Qwen3-Next | 66.05 | 0.00 | 0.00 | 0.00 | 0.00 | 56.60 |
| 6 | Qwen2.5-72B | 58.10 | 45.90 | 0.00 | 0.00 | 0.00 | 0.00 |
| 7 | Llama3-70B-Instruct | 56.20 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 |
| 8 | Llama3-70B | 52.78 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 |
| 9 | Llama3.1-70B | 52.47 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 |
| 10 | DeepSeek-R1-Distill-Llama-70B | 0.00 | 65.20 | 0.00 | 94.50 | 0.00 | 0.00 |