快速查看大模型在各项评测基准上的表现,包括MMLU Pro、HLE、SWE-Bench等多个标准数据集,帮助开发者和用户了解不同大模型在通用知识、编程能力、推理能力等方面的表现。
用户可以选择自定义模型与评测基准进行对比,快速获取不同模型在实际应用中的优劣势。
各个评测基准的详细介绍可见: LLM 评测基准列表与介绍
数据来源:DataLearnerAI
|
排名
|
模型
|
MMLU Pro
|
GPQA Diamond
|
SWE-bench Verified
|
MATH-500
|
AIME 2024
|
LiveCodeBench
|
|---|---|---|---|---|---|---|---|
| 1 |
|
84.40 | 81.10 | 未公布 | 未公布 | 未公布 | 74.10 |
| 2 |
|
78.40 | 70.40 | 未公布 | 未公布 | 未公布 | 43.20 |
| 3 |
|
76.00 | 58.00 | 未公布 | 91.00 | 79.50 | 未公布 |
| 4 |
|
74.00 | 71.50 | 未公布 | 未公布 | 96.00 | 未公布 |
| 5 |
|
70.97 | 未公布 | 未公布 | 90.60 | 50.00 | 未公布 |
| 6 |
|
69.23 | 未公布 | 未公布 | 未公布 | 未公布 | 51.20 |
| 7 |
|
69.10 | 54.80 | 未公布 | 未公布 | 未公布 | 29.00 |
| 8 |
|
69.06 | 46.13 | 未公布 | 未公布 | 未公布 | 未公布 |
| 9 |
|
67.50 | 42.40 | 未公布 | 未公布 | 25.30 | 29.70 |
| 10 |
|
66.76 | 45.96 | 未公布 | 未公布 | 未公布 | 未公布 |
| 11 |
|
56.54 | 未公布 | 未公布 | 未公布 | 未公布 | 未公布 |
| 12 |
|
47.16 | 33.84 | 未公布 | 未公布 | 未公布 | 未公布 |
| 13 |
|
未公布 | 68.40 | 未公布 | 97.20 | 81.40 | 65.70 |
| 14 |
|
未公布 | 未公布 | 51.60 | 未公布 | 未公布 | 未公布 |
| 15 |
|
未公布 | 未公布 | 46.80 | 未公布 | 未公布 | 未公布 |
| 16 |
|
未公布 | 未公布 | 53.60 | 未公布 | 未公布 | 未公布 |
| 17 |
|
未公布 | 68.18 | 未公布 | 未公布 | 70.68 | 55.84 |
| 18 |
|
未公布 | 未公布 | 未公布 | 未公布 | 未公布 | 31.50 |