大模型评测基准与性能对比

快速查看大模型在各项评测基准上的表现,包括MMLU Pro、HLE、SWE-Bench等多个标准数据集,帮助开发者和用户了解不同大模型在通用知识、编程能力、推理能力等方面的表现。

用户可以选择自定义模型与评测基准进行对比,快速获取不同模型在实际应用中的优劣势。

各个评测基准的详细介绍可见: LLM 评测基准列表与介绍

大模型性能评测结果

数据来源:DataLearnerAI

自定义评测选择

+
+
#
模型
MMLU Pro
GPQA Diamond
SWE-bench Verified
MATH-500
AIME 2024
LiveCodeBench
参数(亿)
开源情况
1
91.04
77.30
48.90
96.40
79.20
71.00
未知
不开源
MMLU Pro (知识问答) 91.04
GPQA Diamond (常识推理) 77.30
SWE-bench Verified (代码生成) 48.90
MATH-500 (数学推理) 96.40
AIME 2024 (数学推理) 79.20
LiveCodeBench (代码生成) 71.00
参数(亿) 未知
开源情况 不开源
查看模型详情
2
86.10
71.40
38.00
90.70
36.70
46.40
未知
不开源
MMLU Pro (知识问答) 86.10
GPQA Diamond (常识推理) 71.40
SWE-bench Verified (代码生成) 38.00
MATH-500 (数学推理) 90.70
AIME 2024 (数学推理) 36.70
LiveCodeBench (代码生成) 46.40
参数(亿) 未知
开源情况 不开源
查看模型详情
3
86.00
86.40
59.60
98.80
92.00
77.10
未知
不开源
MMLU Pro (知识问答) 86.00
GPQA Diamond (常识推理) 86.40
SWE-bench Verified (代码生成) 59.60
MATH-500 (数学推理) 98.80
AIME 2024 (数学推理) 92.00
LiveCodeBench (代码生成) 77.10
参数(亿) 未知
开源情况 不开源
查看模型详情
4
85.60
83.30
69.10
98.10
91.60
75.80
未知
不开源
MMLU Pro (知识问答) 85.60
GPQA Diamond (常识推理) 83.30
SWE-bench Verified (代码生成) 69.10
MATH-500 (数学推理) 98.10
AIME 2024 (数学推理) 91.60
LiveCodeBench (代码生成) 75.80
参数(亿) 未知
开源情况 不开源
查看模型详情
5
85.00
81.00
57.60
98.00
91.40
73.30
6,850
免费商用授权
MMLU Pro (知识问答) 85.00
GPQA Diamond (常识推理) 81.00
SWE-bench Verified (代码生成) 57.60
MATH-500 (数学推理) 98.00
AIME 2024 (数学推理) 91.40
LiveCodeBench (代码生成) 73.30
参数(亿) 6,850
开源情况 免费商用授权
查看模型详情
6
85.00
79.60
72.50
98.20
76.00
56.60
未知
不开源
MMLU Pro (知识问答) 85.00
GPQA Diamond (常识推理) 79.60
SWE-bench Verified (代码生成) 72.50
MATH-500 (数学推理) 98.20
AIME 2024 (数学推理) 76.00
LiveCodeBench (代码生成) 56.60
参数(亿) 未知
开源情况 不开源
查看模型详情
7
84.60
79.10
64.20
98.20
91.00
72.90
3,550
免费商用授权
MMLU Pro (知识问答) 84.60
GPQA Diamond (常识推理) 79.10
SWE-bench Verified (代码生成) 64.20
MATH-500 (数学推理) 98.20
AIME 2024 (数学推理) 91.00
LiveCodeBench (代码生成) 72.90
参数(亿) 3,550
开源情况 免费商用授权
查看模型详情
8
84.40
81.10
未公布
未公布
未公布
74.10
2,350
免费商用授权
MMLU Pro (知识问答) 84.40
GPQA Diamond (常识推理) 81.10
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 74.10
参数(亿) 2,350
开源情况 免费商用授权
查看模型详情
9
84.00
71.50
49.20
97.30
79.80
65.90
6,710
免费商用授权
MMLU Pro (知识问答) 84.00
GPQA Diamond (常识推理) 71.50
SWE-bench Verified (代码生成) 49.20
MATH-500 (数学推理) 97.30
AIME 2024 (数学推理) 79.80
LiveCodeBench (代码生成) 65.90
参数(亿) 6,710
开源情况 免费商用授权
查看模型详情
10
83.50
77.30
未公布
未公布
未公布
未公布
2,410
免费商用授权
MMLU Pro (知识问答) 83.50
GPQA Diamond (常识推理) 77.30
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 2,410
开源情况 免费商用授权
查看模型详情
11
83.00
77.50
未公布
未公布
未公布
51.80
2,350
免费商用授权
MMLU Pro (知识问答) 83.00
GPQA Diamond (常识推理) 77.50
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 51.80
参数(亿) 2,350
开源情况 免费商用授权
查看模型详情
12
82.20
73.70
未公布
95.00
未公布
49.40
20,000
免费商用授权
MMLU Pro (知识问答) 82.20
GPQA Diamond (常识推理) 73.70
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 95.00
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 49.40
参数(亿) 20,000
开源情况 免费商用授权
查看模型详情
13
81.40
75.00
57.60
98.10
89.40
70.70
1,060
免费商用授权
MMLU Pro (知识问答) 81.40
GPQA Diamond (常识推理) 75.00
SWE-bench Verified (代码生成) 57.60
MATH-500 (数学推理) 98.10
AIME 2024 (数学推理) 89.40
LiveCodeBench (代码生成) 70.70
参数(亿) 1,060
开源情况 免费商用授权
查看模型详情
14
81.20
68.40
38.80
94.00
59.40
49.20
6,810
免费商用授权
MMLU Pro (知识问答) 81.20
GPQA Diamond (常识推理) 68.40
SWE-bench Verified (代码生成) 38.80
MATH-500 (数学推理) 94.00
AIME 2024 (数学推理) 59.40
LiveCodeBench (代码生成) 49.20
参数(亿) 6,810
开源情况 免费商用授权
查看模型详情
15
81.10
70.00
56.00
96.80
86.00
65.00
4,560
免费商用授权
MMLU Pro (知识问答) 81.10
GPQA Diamond (常识推理) 70.00
SWE-bench Verified (代码生成) 56.00
MATH-500 (数学推理) 96.80
AIME 2024 (数学推理) 86.00
LiveCodeBench (代码生成) 65.00
参数(亿) 4,560
开源情况 免费商用授权
查看模型详情
16
81.10
75.10
51.80
97.40
69.60
53.70
10,000
免费商用授权
MMLU Pro (知识问答) 81.10
GPQA Diamond (常识推理) 75.10
SWE-bench Verified (代码生成) 51.80
MATH-500 (数学推理) 97.40
AIME 2024 (数学推理) 69.60
LiveCodeBench (代码生成) 53.70
参数(亿) 10,000
开源情况 免费商用授权
查看模型详情
17
80.60
81.40
68.10
未公布
93.40
未公布
未知
不开源
MMLU Pro (知识问答) 80.60
GPQA Diamond (常识推理) 81.40
SWE-bench Verified (代码生成) 68.10
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 93.40
LiveCodeBench (代码生成) 未公布
参数(亿) 未知
开源情况 不开源
查看模型详情
18
80.60
69.20
55.60
96.00
83.30
62.30
4,560
免费商用授权
MMLU Pro (知识问答) 80.60
GPQA Diamond (常识推理) 69.20
SWE-bench Verified (代码生成) 55.60
MATH-500 (数学推理) 96.00
AIME 2024 (数学推理) 83.30
LiveCodeBench (代码生成) 62.30
参数(亿) 4,560
开源情况 免费商用授权
查看模型详情
19
80.50
66.30
54.60
92.80
48.10
40.50
未知
不开源
MMLU Pro (知识问答) 80.50
GPQA Diamond (常识推理) 66.30
SWE-bench Verified (代码生成) 54.60
MATH-500 (数学推理) 92.80
AIME 2024 (数学推理) 48.10
LiveCodeBench (代码生成) 40.50
参数(亿) 未知
开源情况 不开源
查看模型详情
20
80.50
69.80
未公布
未公布
未公布
43.40
4,000
免费商用授权
MMLU Pro (知识问答) 80.50
GPQA Diamond (常识推理) 69.80
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 43.40
参数(亿) 4,000
开源情况 免费商用授权
查看模型详情
21
80.30
60.00
未公布
90.00
63.60
52.00
未知
不开源
MMLU Pro (知识问答) 80.30
GPQA Diamond (常识推理) 60.00
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 90.00
AIME 2024 (数学推理) 63.60
LiveCodeBench (代码生成) 52.00
参数(亿) 未知
开源情况 不开源
查看模型详情
22
79.10
64.70
未公布
未公布
36.00
未公布
未知
不开源
MMLU Pro (知识问答) 79.10
GPQA Diamond (常识推理) 64.70
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 36.00
LiveCodeBench (代码生成) 未公布
参数(亿) 未知
开源情况 不开源
查看模型详情
23
79.00
57.50
未公布
未公布
未公布
32.00
未知
不开源
MMLU Pro (知识问答) 79.00
GPQA Diamond (常识推理) 57.50
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 32.00
参数(亿) 未知
开源情况 不开源
查看模型详情
24
78.40
未公布
未公布
96.40
54.80
38.80
3,000
免费商用授权
MMLU Pro (知识问答) 78.40
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 96.40
AIME 2024 (数学推理) 54.80
LiveCodeBench (代码生成) 38.80
参数(亿) 3,000
开源情况 免费商用授权
查看模型详情
25
77.90
53.60
31.00
75.90
9.30
35.10
未知
不开源
MMLU Pro (知识问答) 77.90
GPQA Diamond (常识推理) 53.60
SWE-bench Verified (代码生成) 31.00
MATH-500 (数学推理) 75.90
AIME 2024 (数学推理) 9.30
LiveCodeBench (代码生成) 35.10
参数(亿) 未知
开源情况 不开源
查看模型详情
26
77.90
未公布
未公布
未公布
未公布
未公布
未知
不开源
MMLU Pro (知识问答) 77.90
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 未知
开源情况 不开源
查看模型详情
27
77.64
59.40
未公布
未公布
未公布
未公布
未知
不开源
MMLU Pro (知识问答) 77.64
GPQA Diamond (常识推理) 59.40
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 未知
开源情况 不开源
查看模型详情
28
76.24
65.20
21.40
未公布
未公布
29.10
未知
不开源
MMLU Pro (知识问答) 76.24
GPQA Diamond (常识推理) 65.20
SWE-bench Verified (代码生成) 21.40
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 29.10
参数(亿) 未知
开源情况 不开源
查看模型详情
29
76.10
未公布
未公布
未公布
未公布
未公布
未知
不开源
MMLU Pro (知识问答) 76.10
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 未知
开源情况 不开源
查看模型详情
30
75.90
59.10
未公布
87.80
39.00
34.60
6,810
免费商用授权
MMLU Pro (知识问答) 75.90
GPQA Diamond (常识推理) 59.10
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 87.80
AIME 2024 (数学推理) 39.00
LiveCodeBench (代码生成) 34.60
参数(亿) 6,810
开源情况 免费商用授权
查看模型详情
31
75.50
56.00
未公布
未公布
未公布
未公布
未知
不开源
MMLU Pro (知识问答) 75.50
GPQA Diamond (常识推理) 56.00
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 未知
开源情况 不开源
查看模型详情
32
74.30
57.20
未公布
未公布
未公布
32.80
1,090
免费商用授权
MMLU Pro (知识问答) 74.30
GPQA Diamond (常识推理) 57.20
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 32.80
参数(亿) 1,090
开源情况 免费商用授权
查看模型详情
33
73.40
49.00
未公布
未公布
未公布
30.20
4,050
免费商用授权
MMLU Pro (知识问答) 73.40
GPQA Diamond (常识推理) 49.00
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 30.20
参数(亿) 4,050
开源情况 免费商用授权
查看模型详情
34
72.90
71.10
34.40
98.00
85.70
70.70
2,350
免费商用授权
MMLU Pro (知识问答) 72.90
GPQA Diamond (常识推理) 71.10
SWE-bench Verified (代码生成) 34.40
MATH-500 (数学推理) 98.00
AIME 2024 (数学推理) 85.70
LiveCodeBench (代码生成) 70.70
参数(亿) 2,350
开源情况 免费商用授权
查看模型详情
35
71.60
51.50
未公布
未公布
未公布
28.90
未知
不开源
MMLU Pro (知识问答) 71.60
GPQA Diamond (常识推理) 51.50
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 28.90
参数(亿) 未知
开源情况 不开源
查看模型详情
36
62.90
未公布
未公布
未公布
未公布
未公布
4,000
免费商用授权
MMLU Pro (知识问答) 62.90
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 4,000
开源情况 免费商用授权
查看模型详情
37
61.60
未公布
未公布
未公布
未公布
未公布
4,050
免费商用授权
MMLU Pro (知识问答) 61.60
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 4,050
开源情况 免费商用授权
查看模型详情
38
58.20
未公布
未公布
未公布
未公布
未公布
1,090
免费商用授权
MMLU Pro (知识问答) 58.20
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 1,090
开源情况 免费商用授权
查看模型详情
39
56.33
未公布
未公布
未公布
未公布
未公布
1,410
免费商用授权
MMLU Pro (知识问答) 56.33
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 1,410
开源情况 免费商用授权
查看模型详情
40
51.00
35.90
未公布
未公布
未公布
未公布
未知
不开源
MMLU Pro (知识问答) 51.00
GPQA Diamond (常识推理) 35.90
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 未知
开源情况 不开源
查看模型详情
41
未公布
75.40
72.70
未公布
43.40
48.50
未知
不开源
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 75.40
SWE-bench Verified (代码生成) 72.70
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 43.40
LiveCodeBench (代码生成) 48.50
参数(亿) 未知
开源情况 不开源
查看模型详情
42
未公布
65.00
23.60
未公布
49.60
未公布
未知
不开源
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 65.00
SWE-bench Verified (代码生成) 23.60
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 49.60
LiveCodeBench (代码生成) 未公布
参数(亿) 未知
开源情况 不开源
查看模型详情
43
未公布
未公布
未公布
未公布
未公布
未公布
未知
不开源
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 未知
开源情况 不开源
查看模型详情
44
未公布
70.83
未公布
未公布
73.59
59.36
未知
不开源
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 70.83
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 73.59
LiveCodeBench (代码生成) 59.36
参数(亿) 未知
开源情况 不开源
查看模型详情
45
未公布
84.00
75.00
未公布
93.00
未公布
未知
不开源
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 84.00
SWE-bench Verified (代码生成) 75.00
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 93.00
LiveCodeBench (代码生成) 未公布
参数(亿) 未知
开源情况 不开源
查看模型详情
46
未公布
未公布
未公布
未公布
未公布
80.40
未知
不开源
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 80.40
参数(亿) 未知
开源情况 不开源
查看模型详情
47
未公布
66.70
27.60
未公布
未公布
34.30
未知
不开源
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 66.70
SWE-bench Verified (代码生成) 27.60
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 34.30
参数(亿) 未知
开源情况 不开源
查看模型详情
48
未公布
未公布
67.00
未公布
未公布
未公布
4,800
免费商用授权
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 67.00
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 4,800
开源情况 免费商用授权
查看模型详情
49
未公布
68.00
70.30
82.20
23.30
未公布
未知
不开源
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 68.00
SWE-bench Verified (代码生成) 70.30
MATH-500 (数学推理) 82.20
AIME 2024 (数学推理) 23.30
LiveCodeBench (代码生成) 未公布
参数(亿) 未知
开源情况 不开源
查看模型详情
50
未公布
未公布
未公布
未公布
未公布
67.40
未知
不开源
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 67.40
参数(亿) 未知
开源情况 不开源
查看模型详情
51
未公布
79.70
49.30
97.90
87.00
69.50
未知
不开源
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 79.70
SWE-bench Verified (代码生成) 49.30
MATH-500 (数学推理) 97.90
AIME 2024 (数学推理) 87.00
LiveCodeBench (代码生成) 69.50
参数(亿) 未知
开源情况 不开源
查看模型详情
52
未公布
未公布
未公布
94.60
未公布
未公布
未知
不开源
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 94.60
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 未知
开源情况 不开源
查看模型详情
53
未公布
未公布
未公布
96.20
未公布
未公布
未知
不开源
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 96.20
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 未知
开源情况 不开源
查看模型详情
54
未公布
80.40
未公布
未公布
84.20
70.60
未知
不开源
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 80.40
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 84.20
LiveCodeBench (代码生成) 70.60
参数(亿) 未知
开源情况 不开源
查看模型详情
55
未公布
65.00
未公布
未公布
40.00
未公布
未知
不开源
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 65.00
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 40.00
LiveCodeBench (代码生成) 未公布
参数(亿) 未知
开源情况 不开源
查看模型详情
56
未公布
84.00
未公布
未公布
96.00
未公布
未知
不开源
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 84.00
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 96.00
LiveCodeBench (代码生成) 未公布
参数(亿) 未知
开源情况 不开源
查看模型详情
57
未公布
84.60
未公布
未公布
93.30
79.40
未知
不开源
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 84.60
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 93.30
LiveCodeBench (代码生成) 79.40
参数(亿) 未知
开源情况 不开源
查看模型详情
58
未公布
83.00
63.20
98.80
92.00
77.10
未知
不开源
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 83.00
SWE-bench Verified (代码生成) 63.20
MATH-500 (数学推理) 98.80
AIME 2024 (数学推理) 92.00
LiveCodeBench (代码生成) 77.10
参数(亿) 未知
开源情况 不开源
查看模型详情
59
未公布
84.80
未公布
96.20
80.00
未公布
未知
不开源
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 84.80
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 96.20
AIME 2024 (数学推理) 80.00
LiveCodeBench (代码生成) 未公布
参数(亿) 未知
开源情况 不开源
查看模型详情
60
未公布
未公布
未公布
未公布
未公布
73.80
未知
不开源
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 73.80
参数(亿) 未知
开源情况 不开源
查看模型详情
61
未公布
未公布
未公布
未公布
未公布
65.90
未知
不开源
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 65.90
参数(亿) 未知
开源情况 不开源
查看模型详情
62
未公布
未公布
未公布
未公布
未公布
65.60
未知
免费商用授权
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 65.60
参数(亿) 未知
开源情况 免费商用授权
查看模型详情
63
未公布
50.30
未公布
未公布
29.40
未公布
未知
不开源
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 50.30
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 29.40
LiveCodeBench (代码生成) 未公布
参数(亿) 未知
开源情况 不开源
查看模型详情
64
未公布
78.30
63.80
未公布
88.00
63.40
未知
不开源
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 78.30
SWE-bench Verified (代码生成) 63.80
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 88.00
LiveCodeBench (代码生成) 63.40
参数(亿) 未知
开源情况 不开源
查看模型详情
65
未公布
未公布
未公布
未公布
未公布
37.90
未知
不开源
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 37.90
参数(亿) 未知
开源情况 不开源
查看模型详情
66
未公布
未公布
未公布
未公布
未公布
未公布
未知
不开源
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 未知
开源情况 不开源
查看模型详情