大模型评测基准与性能对比

快速查看大模型在各项评测基准上的表现,包括MMLU Pro、HLE、SWE-Bench等多个标准数据集,帮助开发者和用户了解不同大模型在通用知识、编程能力、推理能力等方面的表现。

用户可以选择自定义模型与评测基准进行对比,快速获取不同模型在实际应用中的优劣势。

各个评测基准的详细介绍可见: LLM 评测基准列表与介绍

大模型性能评测结果

数据来源:DataLearnerAI

自定义评测选择

+
+
#
模型
MMLU Pro
GPQA Diamond
SWE-bench Verified
MATH-500
AIME 2024
LiveCodeBench
参数(亿)
开源情况
1
91.04
77.30
48.90
96.40
79.20
71.00
未知
不开源
MMLU Pro (知识问答) 91.04
GPQA Diamond (常识推理) 77.30
SWE-bench Verified (代码生成) 48.90
MATH-500 (数学推理) 96.40
AIME 2024 (数学推理) 79.20
LiveCodeBench (代码生成) 71.00
参数(亿) 未知
开源情况 不开源
查看模型详情
2
87.20
69.30
未公布
96.20
78.20
64.90
未知
不开源
MMLU Pro (知识问答) 87.20
GPQA Diamond (常识推理) 69.30
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 96.20
AIME 2024 (数学推理) 78.20
LiveCodeBench (代码生成) 64.90
参数(亿) 未知
开源情况 不开源
查看模型详情
3
87.00
87.00
未公布
未公布
未公布
82.00
未知
不开源
MMLU Pro (知识问答) 87.00
GPQA Diamond (常识推理) 87.00
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 82.00
参数(亿) 未知
开源情况 不开源
查看模型详情
4
86.10
71.40
38.00
90.70
36.70
46.40
未知
不开源
MMLU Pro (知识问答) 86.10
GPQA Diamond (常识推理) 71.40
SWE-bench Verified (代码生成) 38.00
MATH-500 (数学推理) 90.70
AIME 2024 (数学推理) 36.70
LiveCodeBench (代码生成) 46.40
参数(亿) 未知
开源情况 不开源
查看模型详情
5
86.00
86.40
59.60
98.80
92.00
77.10
未知
不开源
MMLU Pro (知识问答) 86.00
GPQA Diamond (常识推理) 86.40
SWE-bench Verified (代码生成) 59.60
MATH-500 (数学推理) 98.80
AIME 2024 (数学推理) 92.00
LiveCodeBench (代码生成) 77.10
参数(亿) 未知
开源情况 不开源
查看模型详情
6
85.60
83.30
69.10
98.10
91.60
75.80
未知
不开源
MMLU Pro (知识问答) 85.60
GPQA Diamond (常识推理) 83.30
SWE-bench Verified (代码生成) 69.10
MATH-500 (数学推理) 98.10
AIME 2024 (数学推理) 91.60
LiveCodeBench (代码生成) 75.80
参数(亿) 未知
开源情况 不开源
查看模型详情
7
85.00
79.60
72.50
98.20
76.00
56.60
未知
不开源
MMLU Pro (知识问答) 85.00
GPQA Diamond (常识推理) 79.60
SWE-bench Verified (代码生成) 72.50
MATH-500 (数学推理) 98.20
AIME 2024 (数学推理) 76.00
LiveCodeBench (代码生成) 56.60
参数(亿) 未知
开源情况 不开源
查看模型详情
8
85.00
81.00
57.60
98.00
91.40
73.30
6,850
免费商用授权
MMLU Pro (知识问答) 85.00
GPQA Diamond (常识推理) 81.00
SWE-bench Verified (代码生成) 57.60
MATH-500 (数学推理) 98.00
AIME 2024 (数学推理) 91.40
LiveCodeBench (代码生成) 73.30
参数(亿) 6,850
开源情况 免费商用授权
查看模型详情
9
智谱AI Logo
GLM-4.5
thinking
84.60
79.10
64.20
98.20
91.00
72.90
3,550
免费商用授权
MMLU Pro (知识问答) 84.60
GPQA Diamond (常识推理) 79.10
SWE-bench Verified (代码生成) 64.20
MATH-500 (数学推理) 98.20
AIME 2024 (数学推理) 91.00
LiveCodeBench (代码生成) 72.90
参数(亿) 3,550
开源情况 免费商用授权
查看模型详情
10
84.40
81.10
未公布
未公布
未公布
74.10
305
免费商用授权
MMLU Pro (知识问答) 84.40
GPQA Diamond (常识推理) 81.10
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 74.10
参数(亿) 305
开源情况 免费商用授权
查看模型详情
11
84.40
81.10
未公布
未公布
未公布
74.10
2,350
免费商用授权
MMLU Pro (知识问答) 84.40
GPQA Diamond (常识推理) 81.10
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 74.10
参数(亿) 2,350
开源情况 免费商用授权
查看模型详情
12
84.00
71.50
49.20
97.30
79.80
65.90
6,710
免费商用授权
MMLU Pro (知识问答) 84.00
GPQA Diamond (常识推理) 71.50
SWE-bench Verified (代码生成) 49.20
MATH-500 (数学推理) 97.30
AIME 2024 (数学推理) 79.80
LiveCodeBench (代码生成) 65.90
参数(亿) 6,710
开源情况 免费商用授权
查看模型详情
13
83.50
77.30
未公布
未公布
未公布
未公布
2,410
免费商用授权
MMLU Pro (知识问答) 83.50
GPQA Diamond (常识推理) 77.30
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 2,410
开源情况 免费商用授权
查看模型详情
14
83.00
77.50
未公布
未公布
未公布
51.80
2,350
免费商用授权
MMLU Pro (知识问答) 83.00
GPQA Diamond (常识推理) 77.50
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 51.80
参数(亿) 2,350
开源情况 免费商用授权
查看模型详情
15
82.60
73.70
未公布
96.80
79.20
59.60
719
免费商用授权
MMLU Pro (知识问答) 82.60
GPQA Diamond (常识推理) 73.70
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 96.80
AIME 2024 (数学推理) 79.20
LiveCodeBench (代码生成) 59.60
参数(亿) 719
开源情况 免费商用授权
查看模型详情
16
82.20
73.70
未公布
95.00
未公布
49.40
20,000
免费商用授权
MMLU Pro (知识问答) 82.20
GPQA Diamond (常识推理) 73.70
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 95.00
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 49.40
参数(亿) 20,000
开源情况 免费商用授权
查看模型详情
17
智谱AI Logo
GLM-4.5-Air
thinking
81.40
75.00
57.60
98.10
89.40
70.70
1,060
免费商用授权
MMLU Pro (知识问答) 81.40
GPQA Diamond (常识推理) 75.00
SWE-bench Verified (代码生成) 57.60
MATH-500 (数学推理) 98.10
AIME 2024 (数学推理) 89.40
LiveCodeBench (代码生成) 70.70
参数(亿) 1,060
开源情况 免费商用授权
查看模型详情
18
81.20
68.40
38.80
94.00
59.40
49.20
6,810
免费商用授权
MMLU Pro (知识问答) 81.20
GPQA Diamond (常识推理) 68.40
SWE-bench Verified (代码生成) 38.80
MATH-500 (数学推理) 94.00
AIME 2024 (数学推理) 59.40
LiveCodeBench (代码生成) 49.20
参数(亿) 6,810
开源情况 免费商用授权
查看模型详情
19
81.10
75.10
51.80
97.40
69.60
53.70
10,000
免费商用授权
MMLU Pro (知识问答) 81.10
GPQA Diamond (常识推理) 75.10
SWE-bench Verified (代码生成) 51.80
MATH-500 (数学推理) 97.40
AIME 2024 (数学推理) 69.60
LiveCodeBench (代码生成) 53.70
参数(亿) 10,000
开源情况 免费商用授权
查看模型详情
20
81.10
70.00
56.00
96.80
86.00
65.00
4,560
免费商用授权
MMLU Pro (知识问答) 81.10
GPQA Diamond (常识推理) 70.00
SWE-bench Verified (代码生成) 56.00
MATH-500 (数学推理) 96.80
AIME 2024 (数学推理) 86.00
LiveCodeBench (代码生成) 65.00
参数(亿) 4,560
开源情况 免费商用授权
查看模型详情
21
80.60
69.20
55.60
96.00
83.30
62.30
4,560
免费商用授权
MMLU Pro (知识问答) 80.60
GPQA Diamond (常识推理) 69.20
SWE-bench Verified (代码生成) 55.60
MATH-500 (数学推理) 96.00
AIME 2024 (数学推理) 83.30
LiveCodeBench (代码生成) 62.30
参数(亿) 4,560
开源情况 免费商用授权
查看模型详情
22
80.60
81.40
68.10
未公布
93.40
未公布
未知
不开源
MMLU Pro (知识问答) 80.60
GPQA Diamond (常识推理) 81.40
SWE-bench Verified (代码生成) 68.10
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 93.40
LiveCodeBench (代码生成) 未公布
参数(亿) 未知
开源情况 不开源
查看模型详情
23
80.50
66.30
54.60
92.80
48.10
40.50
未知
不开源
MMLU Pro (知识问答) 80.50
GPQA Diamond (常识推理) 66.30
SWE-bench Verified (代码生成) 54.60
MATH-500 (数学推理) 92.80
AIME 2024 (数学推理) 48.10
LiveCodeBench (代码生成) 40.50
参数(亿) 未知
开源情况 不开源
查看模型详情
24
80.50
69.80
未公布
未公布
未公布
43.40
4,000
免费商用授权
MMLU Pro (知识问答) 80.50
GPQA Diamond (常识推理) 69.80
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 43.40
参数(亿) 4,000
开源情况 免费商用授权
查看模型详情
25
80.30
60.00
未公布
90.00
63.60
52.00
未知
不开源
MMLU Pro (知识问答) 80.30
GPQA Diamond (常识推理) 60.00
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 90.00
AIME 2024 (数学推理) 63.60
LiveCodeBench (代码生成) 52.00
参数(亿) 未知
开源情况 不开源
查看模型详情
26
79.80
66.90
未公布
未公布
未公布
35.80
未知
不开源
MMLU Pro (知识问答) 79.80
GPQA Diamond (常识推理) 66.90
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 35.80
参数(亿) 未知
开源情况 不开源
查看模型详情
27
79.10
64.70
未公布
未公布
36.00
未公布
未知
不开源
MMLU Pro (知识问答) 79.10
GPQA Diamond (常识推理) 64.70
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 36.00
LiveCodeBench (代码生成) 未公布
参数(亿) 未知
开源情况 不开源
查看模型详情
28
79.00
57.50
未公布
未公布
未公布
32.00
未知
不开源
MMLU Pro (知识问答) 79.00
GPQA Diamond (常识推理) 57.50
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 32.00
参数(亿) 未知
开源情况 不开源
查看模型详情
29
79.00
未公布
未公布
92.40
81.90
67.10
70
免费商用授权
MMLU Pro (知识问答) 79.00
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 92.40
AIME 2024 (数学推理) 81.90
LiveCodeBench (代码生成) 67.10
参数(亿) 70
开源情况 免费商用授权
查看模型详情
30
78.40
未公布
未公布
96.40
54.80
38.80
3,000
免费商用授权
MMLU Pro (知识问答) 78.40
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 96.40
AIME 2024 (数学推理) 54.80
LiveCodeBench (代码生成) 38.80
参数(亿) 3,000
开源情况 免费商用授权
查看模型详情
31
78.40
70.40
未公布
未公布
未公布
43.20
305
免费商用授权
MMLU Pro (知识问答) 78.40
GPQA Diamond (常识推理) 70.40
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 43.20
参数(亿) 305
开源情况 免费商用授权
查看模型详情
32
78.00
65.00
49.00
78.00
16.00
38.70
未知
不开源
MMLU Pro (知识问答) 78.00
GPQA Diamond (常识推理) 65.00
SWE-bench Verified (代码生成) 49.00
MATH-500 (数学推理) 78.00
AIME 2024 (数学推理) 16.00
LiveCodeBench (代码生成) 38.70
参数(亿) 未知
开源情况 不开源
查看模型详情
33
77.90
53.60
31.00
75.90
9.30
35.10
未知
不开源
MMLU Pro (知识问答) 77.90
GPQA Diamond (常识推理) 53.60
SWE-bench Verified (代码生成) 31.00
MATH-500 (数学推理) 75.90
AIME 2024 (数学推理) 9.30
LiveCodeBench (代码生成) 35.10
参数(亿) 未知
开源情况 不开源
查看模型详情
34
77.90
未公布
未公布
未公布
未公布
未公布
未知
不开源
MMLU Pro (知识问答) 77.90
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 未知
开源情况 不开源
查看模型详情
35
77.64
59.40
未公布
未公布
未公布
未公布
未知
不开源
MMLU Pro (知识问答) 77.64
GPQA Diamond (常识推理) 59.40
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 未知
开源情况 不开源
查看模型详情
36
76.24
65.20
21.40
未公布
未公布
29.10
未知
不开源
MMLU Pro (知识问答) 76.24
GPQA Diamond (常识推理) 65.20
SWE-bench Verified (代码生成) 21.40
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 29.10
参数(亿) 未知
开源情况 不开源
查看模型详情
37
76.10
53.50
未公布
未公布
未公布
未公布
未知
不开源
MMLU Pro (知识问答) 76.10
GPQA Diamond (常识推理) 53.50
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 未知
开源情况 不开源
查看模型详情
38
76.10
未公布
未公布
未公布
未公布
未公布
未知
不开源
MMLU Pro (知识问答) 76.10
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 未知
开源情况 不开源
查看模型详情
39
76.00
58.00
未公布
91.00
79.50
未公布
325
免费商用授权
MMLU Pro (知识问答) 76.00
GPQA Diamond (常识推理) 58.00
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 91.00
AIME 2024 (数学推理) 79.50
LiveCodeBench (代码生成) 未公布
参数(亿) 325
开源情况 免费商用授权
查看模型详情
40
75.90
59.10
未公布
87.80
39.00
34.60
6,810
免费商用授权
MMLU Pro (知识问答) 75.90
GPQA Diamond (常识推理) 59.10
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 87.80
AIME 2024 (数学推理) 39.00
LiveCodeBench (代码生成) 34.60
参数(亿) 6,810
开源情况 免费商用授权
查看模型详情
41
75.50
56.00
未公布
未公布
未公布
未公布
未知
不开源
MMLU Pro (知识问答) 75.50
GPQA Diamond (常识推理) 56.00
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 未知
开源情况 不开源
查看模型详情
42
74.30
57.20
未公布
未公布
未公布
32.80
1,090
免费商用授权
MMLU Pro (知识问答) 74.30
GPQA Diamond (常识推理) 57.20
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 32.80
参数(亿) 1,090
开源情况 免费商用授权
查看模型详情
43
73.40
49.00
未公布
未公布
未公布
30.20
4,050
免费商用授权
MMLU Pro (知识问答) 73.40
GPQA Diamond (常识推理) 49.00
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 30.20
参数(亿) 4,050
开源情况 免费商用授权
查看模型详情
44
72.90
71.10
34.40
96.20
85.70
70.70
2,350
免费商用授权
MMLU Pro (知识问答) 72.90
GPQA Diamond (常识推理) 71.10
SWE-bench Verified (代码生成) 34.40
MATH-500 (数学推理) 96.20
AIME 2024 (数学推理) 85.70
LiveCodeBench (代码生成) 70.70
参数(亿) 2,350
开源情况 免费商用授权
查看模型详情
45
72.50
未公布
未公布
未公布
79.40
61.80
80
免费商用授权
MMLU Pro (知识问答) 72.50
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 79.40
LiveCodeBench (代码生成) 61.80
参数(亿) 80
开源情况 免费商用授权
查看模型详情
46
72.40
未公布
未公布
未公布
76.40
51.80
90
免费商用授权
MMLU Pro (知识问答) 72.40
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 76.40
LiveCodeBench (代码生成) 51.80
参数(亿) 90
开源情况 免费商用授权
查看模型详情
47
71.60
51.50
未公布
未公布
未公布
28.90
未知
不开源
MMLU Pro (知识问答) 71.60
GPQA Diamond (常识推理) 51.50
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 28.90
参数(亿) 未知
开源情况 不开源
查看模型详情
48
70.97
未公布
未公布
90.60
50.00
未公布
320
免费商用授权
MMLU Pro (知识问答) 70.97
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 90.60
AIME 2024 (数学推理) 50.00
LiveCodeBench (代码生成) 未公布
参数(亿) 320
开源情况 免费商用授权
查看模型详情
49
70.40
未公布
未公布
未公布
未公布
未公布
140
不可以商用
MMLU Pro (知识问答) 70.40
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 140
开源情况 不可以商用
查看模型详情
50
69.23
未公布
未公布
未公布
未公布
51.20
320
免费商用授权
MMLU Pro (知识问答) 69.23
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 51.20
参数(亿) 320
开源情况 免费商用授权
查看模型详情
51
69.10
54.80
未公布
未公布
未公布
29.00
305
免费商用授权
MMLU Pro (知识问答) 69.10
GPQA Diamond (常识推理) 54.80
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 29.00
参数(亿) 305
开源情况 免费商用授权
查看模型详情
52
69.06
46.13
未公布
未公布
未公布
未公布
240
免费商用授权
MMLU Pro (知识问答) 69.06
GPQA Diamond (常识推理) 46.13
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 240
开源情况 免费商用授权
查看模型详情
53
68.90
50.50
未公布
未公布
未公布
33.30
700
免费商用授权
MMLU Pro (知识问答) 68.90
GPQA Diamond (常识推理) 50.50
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 33.30
参数(亿) 700
开源情况 免费商用授权
查看模型详情
54
68.45
50.40
未公布
未公布
未公布
未公布
未知
不开源
MMLU Pro (知识问答) 68.45
GPQA Diamond (常识推理) 50.40
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 未知
开源情况 不开源
查看模型详情
55
67.50
42.40
未公布
未公布
25.30
29.70
270
免费商用授权
MMLU Pro (知识问答) 67.50
GPQA Diamond (常识推理) 42.40
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 25.30
LiveCodeBench (代码生成) 29.70
参数(亿) 270
开源情况 免费商用授权
查看模型详情
56
67.23
71.20
未公布
未公布
87.30
63.90
800
免费商用授权
MMLU Pro (知识问答) 67.23
GPQA Diamond (常识推理) 71.20
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 87.30
LiveCodeBench (代码生成) 63.90
参数(亿) 800
开源情况 免费商用授权
查看模型详情
57
66.76
45.96
未公布
未公布
未公布
未公布
240
免费商用授权
MMLU Pro (知识问答) 66.76
GPQA Diamond (常识推理) 45.96
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 240
开源情况 免费商用授权
查看模型详情
58
66.40
48.00
未公布
未公布
未公布
33.30
700
免费商用授权
MMLU Pro (知识问答) 66.40
GPQA Diamond (常识推理) 48.00
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 33.30
参数(亿) 700
开源情况 免费商用授权
查看模型详情
59
65.00
41.60
未公布
未公布
未公布
未公布
未知
不开源
MMLU Pro (知识问答) 65.00
GPQA Diamond (常识推理) 41.60
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 未知
开源情况 不开源
查看模型详情
60
63.69
未公布
未公布
未公布
未公布
未公布
140
免费商用授权
MMLU Pro (知识问答) 63.69
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 140
开源情况 免费商用授权
查看模型详情
61
62.90
未公布
未公布
未公布
未公布
未公布
4,000
免费商用授权
MMLU Pro (知识问答) 62.90
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 4,000
开源情况 免费商用授权
查看模型详情
62
61.70
41.10
未公布
未公布
未公布
未公布
未知
不开源
MMLU Pro (知识问答) 61.70
GPQA Diamond (常识推理) 41.10
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 未知
开源情况 不开源
查看模型详情
63
61.60
未公布
未公布
未公布
未公布
未公布
4,050
免费商用授权
MMLU Pro (知识问答) 61.60
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 4,050
开源情况 免费商用授权
查看模型详情
64
60.60
40.90
未公布
未公布
未公布
24.60
120
免费商用授权
MMLU Pro (知识问答) 60.60
GPQA Diamond (常识推理) 40.90
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 24.60
参数(亿) 120
开源情况 免费商用授权
查看模型详情
65
58.20
未公布
未公布
未公布
未公布
未公布
1,090
免费商用授权
MMLU Pro (知识问答) 58.20
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 1,090
开源情况 免费商用授权
查看模型详情
66
58.10
45.90
未公布
未公布
未公布
未公布
727
免费商用授权
MMLU Pro (知识问答) 58.10
GPQA Diamond (常识推理) 45.90
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 727
开源情况 免费商用授权
查看模型详情
67
56.80
未公布
未公布
未公布
未公布
未公布
未知
不开源
MMLU Pro (知识问答) 56.80
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 未知
开源情况 不开源
查看模型详情
68
56.54
未公布
未公布
未公布
未公布
未公布
270
免费商用授权
MMLU Pro (知识问答) 56.54
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 270
开源情况 免费商用授权
查看模型详情
69
56.33
未公布
未公布
未公布
未公布
未公布
1,410
免费商用授权
MMLU Pro (知识问答) 56.33
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 1,410
开源情况 免费商用授权
查看模型详情
70
56.20
未公布
未公布
未公布
未公布
未公布
700
免费商用授权
MMLU Pro (知识问答) 56.20
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 700
开源情况 免费商用授权
查看模型详情
71
52.80
36.00
未公布
71.80
10.00
未公布
38
免费商用授权
MMLU Pro (知识问答) 52.80
GPQA Diamond (常识推理) 36.00
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 71.80
AIME 2024 (数学推理) 10.00
LiveCodeBench (代码生成) 未公布
参数(亿) 38
开源情况 免费商用授权
查看模型详情
72
52.78
未公布
未公布
未公布
未公布
未公布
700
免费商用授权
MMLU Pro (知识问答) 52.78
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 700
开源情况 免费商用授权
查看模型详情
73
52.47
未公布
未公布
未公布
未公布
未公布
700
免费商用授权
MMLU Pro (知识问答) 52.47
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 700
开源情况 免费商用授权
查看模型详情
74
51.00
35.90
未公布
未公布
未公布
未公布
未知
不开源
MMLU Pro (知识问答) 51.00
GPQA Diamond (常识推理) 35.90
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 未知
开源情况 不开源
查看模型详情
75
47.16
33.84
未公布
未公布
未公布
未公布
320
不可以商用
MMLU Pro (知识问答) 47.16
GPQA Diamond (常识推理) 33.84
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 320
开源情况 不可以商用
查看模型详情
76
45.00
36.40
未公布
未公布
未公布
未公布
70
免费商用授权
MMLU Pro (知识问答) 45.00
GPQA Diamond (常识推理) 36.40
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 70
开源情况 免费商用授权
查看模型详情
77
44.70
32.80
未公布
未公布
未公布
未公布
90
免费商用授权
MMLU Pro (知识问答) 44.70
GPQA Diamond (常识推理) 32.80
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 90
开源情况 免费商用授权
查看模型详情
78
44.00
26.30
未公布
未公布
未公布
未公布
80
免费商用授权
MMLU Pro (知识问答) 44.00
GPQA Diamond (常识推理) 26.30
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 80
开源情况 免费商用授权
查看模型详情
79
42.40
未公布
未公布
未公布
未公布
未公布
160
免费商用授权
MMLU Pro (知识问答) 42.40
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 160
开源情况 免费商用授权
查看模型详情
80
35.40
25.80
未公布
未公布
未公布
未公布
80
免费商用授权
MMLU Pro (知识问答) 35.40
GPQA Diamond (常识推理) 25.80
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 80
开源情况 免费商用授权
查看模型详情
81
34.60
24.30
未公布
未公布
未公布
未公布
30
免费商用授权
MMLU Pro (知识问答) 34.60
GPQA Diamond (常识推理) 24.30
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 30
开源情况 免费商用授权
查看模型详情
82
30.90
24.70
未公布
未公布
未公布
未公布
70
免费商用授权
MMLU Pro (知识问答) 30.90
GPQA Diamond (常识推理) 24.70
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 70
开源情况 免费商用授权
查看模型详情
83
25.00
26.60
未公布
未公布
未公布
未公布
32
免费商用授权
MMLU Pro (知识问答) 25.00
GPQA Diamond (常识推理) 26.60
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 32
开源情况 免费商用授权
查看模型详情
84
未公布
未公布
未公布
未公布
未公布
31.50
220
不可以商用
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 31.50
参数(亿) 220
开源情况 不可以商用
查看模型详情
85
阿里巴巴 Logo
Qwen3-32B
thinking
未公布
68.40
未公布
97.20
81.40
未公布
320
免费商用授权
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 68.40
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 97.20
AIME 2024 (数学推理) 81.40
LiveCodeBench (代码生成) 未公布
参数(亿) 320
开源情况 免费商用授权
查看模型详情
86
 Logo
Gemini 2.5 Deep Think
deeper_thinking
未公布
未公布
未公布
未公布
未公布
87.60
未知
不开源
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 87.60
参数(亿) 未知
开源情况 不开源
查看模型详情
87
未公布
73.00
未公布
未公布
未公布
67.10
3,210
免费商用授权
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 73.00
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 67.10
参数(亿) 3,210
开源情况 免费商用授权
查看模型详情
88
未公布
88.00
未公布
未公布
未公布
未公布
未知
不开源
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 88.00
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 未知
开源情况 不开源
查看模型详情
89
未公布
75.40
72.70
未公布
43.40
48.50
未知
不开源
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 75.40
SWE-bench Verified (代码生成) 72.70
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 43.40
LiveCodeBench (代码生成) 48.50
参数(亿) 未知
开源情况 不开源
查看模型详情
90
未公布
84.00
75.00
未公布
93.00
未公布
未知
不开源
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 84.00
SWE-bench Verified (代码生成) 75.00
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 93.00
LiveCodeBench (代码生成) 未公布
参数(亿) 未知
开源情况 不开源
查看模型详情
91
未公布
84.00
未公布
未公布
96.00
未公布
未知
不开源
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 84.00
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 96.00
LiveCodeBench (代码生成) 未公布
参数(亿) 未知
开源情况 不开源
查看模型详情
92
未公布
76.80
未公布
未公布
未公布
38.80
4,240
免费商用授权
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 76.80
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 38.80
参数(亿) 4,240
开源情况 免费商用授权
查看模型详情
93
未公布
78.30
63.80
未公布
88.00
63.40
未知
不开源
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 78.30
SWE-bench Verified (代码生成) 63.80
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 88.00
LiveCodeBench (代码生成) 63.40
参数(亿) 未知
开源情况 不开源
查看模型详情
94
未公布
65.00
未公布
未公布
40.00
未公布
未知
不开源
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 65.00
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 40.00
LiveCodeBench (代码生成) 未公布
参数(亿) 未知
开源情况 不开源
查看模型详情
95
未公布
79.70
49.30
97.90
87.00
69.50
未知
不开源
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 79.70
SWE-bench Verified (代码生成) 49.30
MATH-500 (数学推理) 97.90
AIME 2024 (数学推理) 87.00
LiveCodeBench (代码生成) 69.50
参数(亿) 未知
开源情况 不开源
查看模型详情
96
未公布
未公布
67.00
未公布
未公布
未公布
4,800
免费商用授权
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 67.00
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 4,800
开源情况 免费商用授权
查看模型详情
97
阿里巴巴 Logo
Qwen3-235B-A22B
thinking
未公布
71.10
未公布
98.00
85.70
70.70
2,350
免费商用授权
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 71.10
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 98.00
AIME 2024 (数学推理) 85.70
LiveCodeBench (代码生成) 70.70
参数(亿) 2,350
开源情况 免费商用授权
查看模型详情
98
未公布
65.20
未公布
94.50
未公布
未公布
700
免费商用授权
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 65.20
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 94.50
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 700
开源情况 免费商用授权
查看模型详情
99
未公布
未公布
51.60
未公布
未公布
未公布
305
免费商用授权
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 51.60
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 305
开源情况 免费商用授权
查看模型详情
100
未公布
未公布
未公布
未公布
未公布
未公布
未知
不开源
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 未知
开源情况 不开源
查看模型详情
101
未公布
未公布
未公布
96.20
未公布
未公布
未知
不开源
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 96.20
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 未知
开源情况 不开源
查看模型详情
102
未公布
未公布
未公布
94.60
未公布
未公布
未知
不开源
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 94.60
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 未知
开源情况 不开源
查看模型详情
103
未公布
未公布
未公布
未公布
未公布
未公布
未知
不开源
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 未知
开源情况 不开源
查看模型详情
104
未公布
未公布
未公布
未公布
未公布
67.40
未知
不开源
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 67.40
参数(亿) 未知
开源情况 不开源
查看模型详情
105
未公布
68.00
70.30
82.20
23.30
未公布
未知
不开源
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 68.00
SWE-bench Verified (代码生成) 70.30
MATH-500 (数学推理) 82.20
AIME 2024 (数学推理) 23.30
LiveCodeBench (代码生成) 未公布
参数(亿) 未知
开源情况 不开源
查看模型详情
106
未公布
68.18
未公布
未公布
70.68
55.84
240
免费商用授权
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 68.18
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 70.68
LiveCodeBench (代码生成) 55.84
参数(亿) 240
开源情况 免费商用授权
查看模型详情
107
未公布
70.83
未公布
未公布
73.59
59.36
未知
不开源
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 70.83
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 73.59
LiveCodeBench (代码生成) 59.36
参数(亿) 未知
开源情况 不开源
查看模型详情
108
未公布
80.40
未公布
未公布
84.20
70.60
未知
不开源
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 80.40
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 84.20
LiveCodeBench (代码生成) 70.60
参数(亿) 未知
开源情况 不开源
查看模型详情
109
未公布
65.00
23.60
未公布
49.60
未公布
未知
不开源
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 65.00
SWE-bench Verified (代码生成) 23.60
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 49.60
LiveCodeBench (代码生成) 未公布
参数(亿) 未知
开源情况 不开源
查看模型详情
110
未公布
83.00
63.20
98.80
92.00
77.10
未知
不开源
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 83.00
SWE-bench Verified (代码生成) 63.20
MATH-500 (数学推理) 98.80
AIME 2024 (数学推理) 92.00
LiveCodeBench (代码生成) 77.10
参数(亿) 未知
开源情况 不开源
查看模型详情
111
未公布
未公布
未公布
未公布
未公布
80.40
未知
不开源
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 80.40
参数(亿) 未知
开源情况 不开源
查看模型详情
112
未公布
66.70
27.60
未公布
未公布
34.30
未知
不开源
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 66.70
SWE-bench Verified (代码生成) 27.60
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 34.30
参数(亿) 未知
开源情况 不开源
查看模型详情
113
未公布
50.30
未公布
未公布
29.40
未公布
未知
不开源
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 50.30
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 29.40
LiveCodeBench (代码生成) 未公布
参数(亿) 未知
开源情况 不开源
查看模型详情
114
未公布
84.60
未公布
未公布
93.30
79.40
未知
不开源
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 84.60
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 93.30
LiveCodeBench (代码生成) 79.40
参数(亿) 未知
开源情况 不开源
查看模型详情
115
未公布
未公布
未公布
未公布
未公布
65.60
未知
免费商用授权
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 65.60
参数(亿) 未知
开源情况 免费商用授权
查看模型详情
116
未公布
未公布
未公布
未公布
未公布
65.90
未知
不开源
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 65.90
参数(亿) 未知
开源情况 不开源
查看模型详情
117
未公布
未公布
未公布
未公布
未公布
73.80
未知
不开源
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 73.80
参数(亿) 未知
开源情况 不开源
查看模型详情
118
未公布
84.80
未公布
96.20
80.00
未公布
未知
不开源
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 84.80
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 96.20
AIME 2024 (数学推理) 80.00
LiveCodeBench (代码生成) 未公布
参数(亿) 未知
开源情况 不开源
查看模型详情
119
未公布
49.50
未公布
91.40
53.30
未公布
70
免费商用授权
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 49.50
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 91.40
AIME 2024 (数学推理) 53.30
LiveCodeBench (代码生成) 未公布
参数(亿) 70
开源情况 免费商用授权
查看模型详情
120
未公布
49.00
未公布
90.40
50.00
未公布
38
不开源
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 49.00
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 90.40
AIME 2024 (数学推理) 50.00
LiveCodeBench (代码生成) 未公布
参数(亿) 38
开源情况 不开源
查看模型详情
121
未公布
53.30
未公布
未公布
81.40
65.70
320
免费商用授权
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 53.30
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 81.40
LiveCodeBench (代码生成) 65.70
参数(亿) 320
开源情况 免费商用授权
查看模型详情
122
未公布
未公布
72.00
未公布
未公布
未公布
未知
不开源
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 72.00
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 未知
开源情况 不开源
查看模型详情
123
未公布
未公布
75.00
未公布
未公布
未公布
未知
不开源
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 75.00
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 未知
开源情况 不开源
查看模型详情
124
未公布
未公布
61.60
未公布
未公布
未公布
未知
不开源
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 61.60
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 未知
开源情况 不开源
查看模型详情
125
未公布
未公布
53.60
未公布
未公布
未公布
240
免费商用授权
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 53.60
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 240
开源情况 免费商用授权
查看模型详情
126
未公布
未公布
46.80
未公布
未公布
未公布
240
免费商用授权
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 46.80
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 240
开源情况 免费商用授权
查看模型详情
127
未公布
88.90
73.50
未公布
未公布
未公布
未知
不开源
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 88.90
SWE-bench Verified (代码生成) 73.50
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 未知
开源情况 不开源
查看模型详情
128
未公布
未公布
未公布
未公布
未公布
未公布
未知
不开源
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 未知
开源情况 不开源
查看模型详情
129
未公布
未公布
未公布
未公布
未公布
未公布
未知
不开源
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 未公布
参数(亿) 未知
开源情况 不开源
查看模型详情
130
未公布
未公布
未公布
未公布
未公布
37.90
未知
不开源
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 未公布
SWE-bench Verified (代码生成) 未公布
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 未公布
LiveCodeBench (代码生成) 37.90
参数(亿) 未知
开源情况 不开源
查看模型详情
131
未公布
84.00
63.80
未公布
92.00
70.40
未知
不开源
MMLU Pro (知识问答) 未公布
GPQA Diamond (常识推理) 84.00
SWE-bench Verified (代码生成) 63.80
MATH-500 (数学推理) 未公布
AIME 2024 (数学推理) 92.00
LiveCodeBench (代码生成) 70.40
参数(亿) 未知
开源情况 不开源
查看模型详情