快速查看大模型在各项评测基准上的表现,包括MMLU Pro、HLE、SWE-Bench等多个标准数据集,帮助开发者和用户了解不同大模型在通用知识、编程能力、推理能力等方面的表现。
用户可以选择自定义模型与评测基准进行对比,快速获取不同模型在实际应用中的优劣势。
各个评测基准的详细介绍可见: LLM 评测基准列表与介绍
数据来源:DataLearnerAI
|
排名
|
模型
|
MMLU Pro
|
GPQA Diamond
|
SWE-bench Verified
|
MATH-500
|
AIME 2024
|
LiveCodeBench
|
|---|---|---|---|---|---|---|---|
| 1 |
|
91.04 | 77.30 | 48.90 | 96.40 | 79.20 | 71.00 |
| 2 |
|
86.10 | 71.40 | 38.00 | 90.70 | 36.70 | 46.40 |
| 3 |
|
85.00 | 79.60 | 72.50 | 98.20 | 76.00 | 56.60 |
| 4 |
|
85.00 | 81.00 | 57.60 | 98.00 | 91.40 | 73.30 |
| 5 |
|
85.00 | 79.90 | 67.80 | 未公布 | 未公布 | 74.10 |
| 6 |
|
85.00 | 80.10 | 66.00 | 未公布 | 93.10 | 74.80 |
| 7 |
|
85.00 | 80.70 | 68.40 | 未公布 | 未公布 | 80.00 |
| 8 |
|
84.60 | 84.50 | 71.30 | 未公布 | 未公布 | 83.10 |
| 9 |
|
84.60 | 79.10 | 64.20 | 98.20 | 91.00 | 72.90 |
| 10 |
|
84.40 | 81.10 | 未公布 | 未公布 | 未公布 | 74.10 |
| 11 |
|
84.00 | 71.50 | 49.20 | 97.30 | 79.80 | 65.90 |
| 12 |
|
83.50 | 77.30 | 未公布 | 未公布 | 未公布 | 未公布 |
| 13 |
|
83.00 | 82.90 | 68.00 | 未公布 | 未公布 | 84.50 |
| 14 |
|
83.00 | 77.50 | 未公布 | 未公布 | 未公布 | 51.80 |
| 15 |
|
82.20 | 73.70 | 未公布 | 95.00 | 未公布 | 49.40 |
| 16 |
|
82.00 | 78.00 | 69.40 | 未公布 | 未公布 | 83.00 |
| 17 |
|
81.40 | 75.00 | 57.60 | 98.10 | 89.40 | 70.70 |
| 18 |
|
81.20 | 68.40 | 38.80 | 94.00 | 59.40 | 49.20 |
| 19 |
|
81.10 | 70.00 | 56.00 | 96.80 | 86.00 | 65.00 |
| 20 |
|
81.10 | 75.10 | 51.80 | 97.40 | 69.60 | 53.70 |
| 21 |
|
80.60 | 81.40 | 68.10 | 未公布 | 98.70 | 未公布 |
| 22 |
|
80.60 | 69.20 | 55.60 | 96.00 | 83.30 | 62.30 |
| 23 |
|
80.50 | 66.30 | 54.60 | 92.80 | 48.10 | 40.50 |
| 24 |
|
80.50 | 69.80 | 未公布 | 未公布 | 未公布 | 43.40 |
| 25 |
|
80.30 | 60.00 | 未公布 | 90.00 | 63.60 | 52.00 |
| 26 |
|
79.10 | 64.70 | 未公布 | 未公布 | 36.00 | 未公布 |
| 27 |
|
79.00 | 57.50 | 未公布 | 未公布 | 未公布 | 32.00 |
| 28 |
|
78.40 | 未公布 | 未公布 | 96.40 | 54.80 | 38.80 |
| 29 |
|
77.90 | 未公布 | 未公布 | 未公布 | 未公布 | 未公布 |
| 30 |
|
77.64 | 59.40 | 未公布 | 未公布 | 未公布 | 未公布 |
| 31 |
|
76.24 | 65.20 | 21.40 | 未公布 | 未公布 | 29.10 |
| 32 |
|
76.10 | 未公布 | 未公布 | 未公布 | 未公布 | 未公布 |
| 33 |
|
75.90 | 59.10 | 未公布 | 87.80 | 39.00 | 34.60 |
| 34 |
|
75.50 | 56.00 | 未公布 | 未公布 | 未公布 | 未公布 |
| 35 |
|
74.30 | 57.20 | 未公布 | 未公布 | 未公布 | 32.80 |
| 36 |
|
73.40 | 49.00 | 未公布 | 未公布 | 未公布 | 30.20 |
| 37 |
|
72.90 | 71.10 | 34.40 | 98.00 | 85.70 | 70.70 |
| 38 |
|
71.60 | 51.50 | 未公布 | 未公布 | 未公布 | 28.90 |
| 39 |
|
62.90 | 未公布 | 未公布 | 未公布 | 未公布 | 未公布 |
| 40 |
|
61.60 | 未公布 | 未公布 | 未公布 | 未公布 | 未公布 |
| 41 |
|
58.20 | 未公布 | 未公布 | 未公布 | 未公布 | 未公布 |
| 42 |
|
56.33 | 未公布 | 未公布 | 未公布 | 未公布 | 未公布 |
| 43 |
|
51.00 | 35.90 | 未公布 | 未公布 | 未公布 | 未公布 |
| 44 |
|
未公布 | 84.00 | 未公布 | 未公布 | 96.00 | 未公布 |
| 45 |
|
未公布 | 68.00 | 70.30 | 82.20 | 23.30 | 未公布 |
| 46 |
|
未公布 | 未公布 | 67.00 | 未公布 | 未公布 | 未公布 |
| 47 |
|
未公布 | 65.00 | 未公布 | 未公布 | 40.00 | 未公布 |
| 48 |
|
未公布 | 80.40 | 未公布 | 未公布 | 84.20 | 70.60 |
| 49 |
|
未公布 | 未公布 | 未公布 | 96.20 | 未公布 | 未公布 |
| 50 |
|
未公布 | 未公布 | 未公布 | 94.60 | 未公布 | 未公布 |
| 51 |
|
未公布 | 73.00 | 未公布 | 未公布 | 未公布 | 67.10 |
| 52 |
|
未公布 | 79.70 | 49.30 | 97.90 | 87.00 | 69.50 |
| 53 |
|
未公布 | 未公布 | 69.20 | 未公布 | 未公布 | 未公布 |
| 54 |
|
未公布 | 未公布 | 未公布 | 未公布 | 未公布 | 67.40 |
| 55 |
|
未公布 | 未公布 | 未公布 | 未公布 | 未公布 | 37.90 |
| 56 |
|
未公布 | 未公布 | 未公布 | 未公布 | 未公布 | 未公布 |
| 57 |
|
未公布 | 84.60 | 未公布 | 未公布 | 93.30 | 79.40 |
| 58 |
|
未公布 | 65.00 | 23.60 | 未公布 | 49.60 | 未公布 |
| 59 |
|
未公布 | 76.80 | 未公布 | 未公布 | 未公布 | 38.80 |
| 60 |
|
未公布 | 66.70 | 27.60 | 未公布 | 未公布 | 34.30 |
| 61 |
|
未公布 | 未公布 | 未公布 | 未公布 | 未公布 | 80.40 |
| 62 |
|
未公布 | 84.80 | 未公布 | 96.20 | 80.00 | 未公布 |
| 63 |
|
未公布 | 未公布 | 未公布 | 未公布 | 未公布 | 73.80 |
| 64 |
|
未公布 | 84.00 | 75.00 | 未公布 | 93.00 | 未公布 |
| 65 |
|
未公布 | 70.83 | 未公布 | 未公布 | 73.59 | 59.36 |
| 66 |
|
未公布 | 未公布 | 未公布 | 未公布 | 未公布 | 65.90 |
| 67 |
|
未公布 | 未公布 | 未公布 | 未公布 | 未公布 | 65.60 |
| 68 |
|
未公布 | 83.00 | 63.20 | 98.80 | 92.00 | 77.10 |
| 69 |
|
未公布 | 未公布 | 未公布 | 未公布 | 未公布 | 未公布 |
| 70 |
|
未公布 | 82.80 | 50.00 | 未公布 | 88.00 | 55.40 |
| 71 |
|
未公布 | 50.30 | 未公布 | 未公布 | 29.40 | 未公布 |