LiveCodeBench 评测基准详情

LiveCodeBench 由加州大学伯克利分校、麻省理工学院和康奈尔大学的研究人员开发,是一个先进的评测基准套件,专门用于严格评估大语言模型 (LLMs) 在代码处理方面的能力,并解决现有基准测试的局限性。通过引入实时更新的问题集和多维度评估方法,LiveCodeBench 确保对 LLM 进行公平、全面和稳健的评估。

LiveCodeBench 大模型得分排行榜

数据来源:DataLearnerAI

LiveCodeBench详细排名数据表格

排名
模型
得分
发布时间
参数(亿)
1
Google Deep Mind Logo
Gemini 2.5 Deep Think deeper_thinking
87.6
2025-08-01
0.0
LiveCodeBench得分 87.6
发布时间 2025-08-01
参数(亿) 0.0
查看模型详情
2
xAI Logo
Grok 4 thinking
82.0
2025-07-10
0.0
LiveCodeBench得分 82.0
发布时间 2025-07-10
参数(亿) 0.0
查看模型详情
3
80.4
2025-06-17
未知
LiveCodeBench得分 80.4
发布时间 2025-06-17
参数(亿) 未知
查看模型详情
4
79.4
2025-02-18
未知
LiveCodeBench得分 79.4
发布时间 2025-02-18
参数(亿) 未知
查看模型详情
5
77.1
2025-06-05
0.0
LiveCodeBench得分 77.1
发布时间 2025-06-05
参数(亿) 0.0
查看模型详情
6
77.1
2025-05-06
未知
LiveCodeBench得分 77.1
发布时间 2025-05-06
参数(亿) 未知
查看模型详情
7
75.8
2025-04-16
0.0
LiveCodeBench得分 75.8
发布时间 2025-04-16
参数(亿) 0.0
查看模型详情
8
74.1
2025-07-25
2350.0
LiveCodeBench得分 74.1
发布时间 2025-07-25
参数(亿) 2350.0
查看模型详情
9
74.1
2025-07-30
305.0
LiveCodeBench得分 74.1
发布时间 2025-07-30
参数(亿) 305.0
查看模型详情
10
73.8
2025-03-20
未知
LiveCodeBench得分 73.8
发布时间 2025-03-20
参数(亿) 未知
查看模型详情
11
73.3
2025-05-28
6710.0
LiveCodeBench得分 73.3
发布时间 2025-05-28
参数(亿) 6710.0
查看模型详情
12
智谱AI Logo
GLM-4.5 thinking
72.9
2025-07-28
3550.0
LiveCodeBench得分 72.9
发布时间 2025-07-28
参数(亿) 3550.0
查看模型详情
13
71.0
2024-12-05
未知
LiveCodeBench得分 71.0
发布时间 2024-12-05
参数(亿) 未知
查看模型详情
14
智谱AI Logo
GLM-4.5-Air thinking
70.7
2025-07-28
1060.0
LiveCodeBench得分 70.7
发布时间 2025-07-28
参数(亿) 1060.0
查看模型详情
15
70.7
2025-04-28
2350.0
LiveCodeBench得分 70.7
发布时间 2025-04-28
参数(亿) 2350.0
查看模型详情
16
70.7
2025-04-28
2350.0
LiveCodeBench得分 70.7
发布时间 2025-04-28
参数(亿) 2350.0
查看模型详情
17
70.6
2025-02-17
未知
LiveCodeBench得分 70.6
发布时间 2025-02-17
参数(亿) 未知
查看模型详情
18
70.4
2025-03-25
0.0
LiveCodeBench得分 70.4
发布时间 2025-03-25
参数(亿) 0.0
查看模型详情
19
69.5
2025-01-31
未知
LiveCodeBench得分 69.5
发布时间 2025-01-31
参数(亿) 未知
查看模型详情
20
67.4
2025-01-31
未知
LiveCodeBench得分 67.4
发布时间 2025-01-31
参数(亿) 未知
查看模型详情
21
67.1
2025-06-30
70.0
LiveCodeBench得分 67.1
发布时间 2025-06-30
参数(亿) 70.0
查看模型详情
22
67.1
2025-07-31
3210.0
LiveCodeBench得分 67.1
发布时间 2025-07-31
参数(亿) 3210.0
查看模型详情
23
65.9
2025-01-20
6710.0
LiveCodeBench得分 65.9
发布时间 2025-01-20
参数(亿) 6710.0
查看模型详情
24
65.9
2025-03-20
未知
LiveCodeBench得分 65.9
发布时间 2025-03-20
参数(亿) 未知
查看模型详情
25
65.7
2025-04-28
320.0
LiveCodeBench得分 65.7
发布时间 2025-04-28
参数(亿) 320.0
查看模型详情
26
65.6
2025-03-20
未知
LiveCodeBench得分 65.6
发布时间 2025-03-20
参数(亿) 未知
查看模型详情
27
65.0
2025-06-16
4560.0
LiveCodeBench得分 65.0
发布时间 2025-06-16
参数(亿) 4560.0
查看模型详情
28
64.9
2025-03-21
0.0
LiveCodeBench得分 64.9
发布时间 2025-03-21
参数(亿) 0.0
查看模型详情
29
63.9
2025-06-27
800.0
LiveCodeBench得分 63.9
发布时间 2025-06-27
参数(亿) 800.0
查看模型详情
30
63.4
2025-04-17
未知
LiveCodeBench得分 63.4
发布时间 2025-04-17
参数(亿) 未知
查看模型详情
31
62.3
2025-06-16
4560.0
LiveCodeBench得分 62.3
发布时间 2025-06-16
参数(亿) 4560.0
查看模型详情
32
61.8
2025-04-28
80.0
LiveCodeBench得分 61.8
发布时间 2025-04-28
参数(亿) 80.0
查看模型详情
33
59.6
2025-06-30
719.0
LiveCodeBench得分 59.6
发布时间 2025-06-30
参数(亿) 719.0
查看模型详情
34
59.36
2025-06-10
未知
LiveCodeBench得分 59.36
发布时间 2025-06-10
参数(亿) 未知
查看模型详情
35
阿里巴巴 Logo
Qwen3-8B thinking
57.5
2025-04-28
80.0
LiveCodeBench得分 57.5
发布时间 2025-04-28
参数(亿) 80.0
查看模型详情
36
57.0
2025-08-04
70.0
LiveCodeBench得分 57.0
发布时间 2025-08-04
参数(亿) 70.0
查看模型详情
37
56.6
2025-05-23
未知
LiveCodeBench得分 56.6
发布时间 2025-05-23
参数(亿) 未知
查看模型详情
38
55.84
2025-06-10
240.0
LiveCodeBench得分 55.84
发布时间 2025-06-10
参数(亿) 240.0
查看模型详情
39
55.2
2025-08-06
40.0
LiveCodeBench得分 55.2
发布时间 2025-08-06
参数(亿) 40.0
查看模型详情
40
53.7
2025-07-11
10000.0
LiveCodeBench得分 53.7
发布时间 2025-07-11
参数(亿) 10000.0
查看模型详情
41
52.0
2024-09-12
未知
LiveCodeBench得分 52.0
发布时间 2024-09-12
参数(亿) 未知
查看模型详情
42
51.8
2025-07-21
2350.0
LiveCodeBench得分 51.8
发布时间 2025-07-21
参数(亿) 2350.0
查看模型详情
43
51.8
2024-06-05
90.0
LiveCodeBench得分 51.8
发布时间 2024-06-05
参数(亿) 90.0
查看模型详情
44
51.2
2024-09-18
320.0
LiveCodeBench得分 51.2
发布时间 2024-09-18
参数(亿) 320.0
查看模型详情
45
49.4
2025-04-05
20000.0
LiveCodeBench得分 49.4
发布时间 2025-04-05
参数(亿) 20000.0
查看模型详情
46
49.2
2025-03-24
6810.0
LiveCodeBench得分 49.2
发布时间 2025-03-24
参数(亿) 6810.0
查看模型详情
47
48.5
2025-05-23
未知
LiveCodeBench得分 48.5
发布时间 2025-05-23
参数(亿) 未知
查看模型详情
48
46.4
2025-02-28
未知
LiveCodeBench得分 46.4
发布时间 2025-02-28
参数(亿) 未知
查看模型详情
49
43.4
2025-04-05
4000.0
LiveCodeBench得分 43.4
发布时间 2025-04-05
参数(亿) 4000.0
查看模型详情
50
43.2
2025-07-29
305.0
LiveCodeBench得分 43.2
发布时间 2025-07-29
参数(亿) 305.0
查看模型详情
51
40.5
2025-04-14
未知
LiveCodeBench得分 40.5
发布时间 2025-04-14
参数(亿) 未知
查看模型详情
52
38.8
2025-06-30
3000.0
LiveCodeBench得分 38.8
发布时间 2025-06-30
参数(亿) 3000.0
查看模型详情
53
38.8
2025-06-30
4240.0
LiveCodeBench得分 38.8
发布时间 2025-06-30
参数(亿) 4240.0
查看模型详情
54
38.7
2024-10-22
0.0
LiveCodeBench得分 38.7
发布时间 2024-10-22
参数(亿) 0.0
查看模型详情
55
37.9
2025-01-13
未知
LiveCodeBench得分 37.9
发布时间 2025-01-13
参数(亿) 未知
查看模型详情
56
35.8
2025-03-27
0.0
LiveCodeBench得分 35.8
发布时间 2025-03-27
参数(亿) 0.0
查看模型详情
57
35.1
2025-08-06
40.0
LiveCodeBench得分 35.1
发布时间 2025-08-06
参数(亿) 40.0
查看模型详情
58
35.1
2024-05-13
0.0
LiveCodeBench得分 35.1
发布时间 2024-05-13
参数(亿) 0.0
查看模型详情
59
34.6
2024-12-26
6810.0
LiveCodeBench得分 34.6
发布时间 2024-12-26
参数(亿) 6810.0
查看模型详情
60
34.3
2025-06-17
未知
LiveCodeBench得分 34.3
发布时间 2025-06-17
参数(亿) 未知
查看模型详情
61
33.3
2024-12-06
700.0
LiveCodeBench得分 33.3
发布时间 2024-12-06
参数(亿) 700.0
查看模型详情
62
33.3
2024-07-23
700.0
LiveCodeBench得分 33.3
发布时间 2024-07-23
参数(亿) 700.0
查看模型详情
63
32.8
2025-04-05
1090.0
LiveCodeBench得分 32.8
发布时间 2025-04-05
参数(亿) 1090.0
查看模型详情
64
32.0
2025-03-10
未知
LiveCodeBench得分 32.0
发布时间 2025-03-10
参数(亿) 未知
查看模型详情
65
31.5
2024-05-29
220.0
LiveCodeBench得分 31.5
发布时间 2024-05-29
参数(亿) 220.0
查看模型详情
66
30.2
2024-07-23
4050.0
LiveCodeBench得分 30.2
发布时间 2024-07-23
参数(亿) 4050.0
查看模型详情
67
29.7
2025-03-12
270.0
LiveCodeBench得分 29.7
发布时间 2025-03-12
参数(亿) 270.0
查看模型详情
68
29.1
2024-12-11
未知
LiveCodeBench得分 29.1
发布时间 2024-12-11
参数(亿) 未知
查看模型详情
69
29.0
2025-04-28
305.0
LiveCodeBench得分 29.0
发布时间 2025-04-28
参数(亿) 305.0
查看模型详情
70
28.9
2025-02-05
未知
LiveCodeBench得分 28.9
发布时间 2025-02-05
参数(亿) 未知
查看模型详情
71
24.6
2025-03-12
120.0
LiveCodeBench得分 24.6
发布时间 2025-03-12
参数(亿) 120.0
查看模型详情