加载中...
加载中...
对比大模型在 MMLU Pro、HLE、SWE-Bench 等评测上的表现,选择评测查看排名。
各个评测基准的详细介绍可见:LLM 评测基准列表与介绍
评测切换
在这里切换评测,图表和表格会同步更新
还有更多评测基准
进入评测基准列表,按类别/语言快速筛选
| 0.00 |
| 0.00 |
| 0.00 |
| 3 | Qwen2.5-14B | 63.69 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 |
| 4 | Gemma 3 - 12B (IT) | 60.60 | 40.90 | 0.00 | 0.00 | 0.00 | 24.60 |
| 5 | Moonlight-16B-A3B-Instruct | 42.40 | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 |