快速查看大模型在各项评测基准上的表现,包括MMLU Pro、HLE、SWE-Bench等多个标准数据集,帮助开发者和用户了解不同大模型在通用知识、编程能力、推理能力等方面的表现。
用户可以选择自定义模型与评测基准进行对比,快速获取不同模型在实际应用中的优劣势。
各个评测基准的详细介绍可见: LLM 评测基准列表与介绍
数据来源:DataLearnerAI
排名
|
模型
|
MMLU Pro
|
GPQA Diamond
|
SWE-bench Verified
|
MATH-500
|
AIME 2024
|
LiveCodeBench
|
---|---|---|---|---|---|---|---|
1 |
![]() |
76.10 | 53.50 | 未公布 | 未公布 | 未公布 | 未公布 |
2 |
![]() |
73.40 | 49.00 | 未公布 | 未公布 | 未公布 | 30.20 |
3 |
![]() |
70.40 | 未公布 | 未公布 | 未公布 | 未公布 | 未公布 |
4 |
![]() |
69.23 | 未公布 | 未公布 | 未公布 | 未公布 | 51.20 |
5 |
![]() |
67.23 | 71.20 | 未公布 | 未公布 | 87.30 | 63.90 |
6 |
![]() |
66.76 | 45.96 | 未公布 | 未公布 | 未公布 | 未公布 |
7 |
![]() |
66.40 | 48.00 | 未公布 | 未公布 | 未公布 | 33.30 |
8 |
![]() |
65.00 | 41.60 | 未公布 | 未公布 | 未公布 | 未公布 |
9 |
![]() |
63.69 | 未公布 | 未公布 | 未公布 | 未公布 | 未公布 |
10 |
![]() |
61.70 | 41.10 | 未公布 | 未公布 | 未公布 | 未公布 |
11 |
![]() |
61.60 | 未公布 | 未公布 | 未公布 | 未公布 | 未公布 |
12 |
![]() |
60.60 | 40.90 | 未公布 | 未公布 | 未公布 | 24.60 |
13 |
![]() |
58.10 | 45.90 | 未公布 | 未公布 | 未公布 | 未公布 |
14 |
![]() |
56.54 | 未公布 | 未公布 | 未公布 | 未公布 | 未公布 |
15 |
![]() |
52.47 | 未公布 | 未公布 | 未公布 | 未公布 | 未公布 |
16 |
![]() |
45.00 | 36.40 | 未公布 | 未公布 | 未公布 | 未公布 |
17 |
![]() |
44.70 | 32.80 | 未公布 | 未公布 | 未公布 | 未公布 |
18 |
![]() |
35.40 | 25.80 | 未公布 | 未公布 | 未公布 | 未公布 |
19 |
![]() |
34.60 | 24.30 | 未公布 | 未公布 | 未公布 | 未公布 |
20 |
![]() |
25.00 | 26.60 | 未公布 | 未公布 | 未公布 | 未公布 |
21 |
|
未公布 | 65.00 | 未公布 | 未公布 | 40.00 | 未公布 |
22 |
![]() |
未公布 | 87.30 | 74.90 | 未公布 | 未公布 | 未公布 |
23 |
![]() |
未公布 | 未公布 | 未公布 | 未公布 | 未公布 | 未公布 |