LiveCodeBench 评测基准详情

452

LiveCodeBench 由加州大学伯克利分校、麻省理工学院和康奈尔大学的研究人员开发,是一个先进的评测基准套件,专门用于严格评估大语言模型 (LLMs) 在代码处理方面的能力,并解决现有基准测试的局限性。通过引入实时更新的问题集和多维度评估方法,LiveCodeBench 确保对 LLM 进行公平、全面和稳健的评估。

模型模式说明

不同模式会显著影响成绩,请在对比榜单时留意标签提示。

提示:若某条记录未显示任何标签,即默认是 normal 常规模式。

normal

常规推理:单步推理,不延长思考、也不调用额外工具。

thinking low medium high

Thinking 系列:常规延长思考时间,low/medium/high 代表不同耗时或深度,各厂商叫法不同。

deeper thinking

Deeper thinking:在 Thinking 基础上进一步延长思考链条,通常意味着更多算力与时间。

使用工具 / 联网

允许调用检索、浏览器、代码解释器等外部能力。

parallel_thinking

并行思考:多线程/多代理协同探索再汇总,通常只在厂商内部实验环境中启用、尚未对外开放,因此被视为“作弊”模式。

LiveCodeBench 大模型得分排行榜

数据来源:DataLearnerAI

LiveCodeBench详细排名数据表格

默认:仅展示常规/非并行的评测结果,可按需查看并行思考成绩。

默认隐藏并行思考结果。

排名
模型
得分
发布时间
参数(亿)
1
Google Deep Mind Logo
Gemini 2.5 Deep Think deeper_thinking
87.6
2025-08-01
未知
LiveCodeBench得分 87.6
发布时间 2025-08-01
参数(亿) 未知
查看模型详情
2
OpenAI Logo
GPT-5.1 Codex high + 使用工具
85.5
2025-11-14
未知
LiveCodeBench得分 85.5
发布时间 2025-11-14
参数(亿) 未知
查看模型详情
3
智谱AI Logo
GLM-4.6 thinking + 使用工具
84.5
2025-09-30
3550.0
LiveCodeBench得分 84.5
发布时间 2025-09-30
参数(亿) 3550.0
查看模型详情
4
83.1
2025-11-06
10400.0
LiveCodeBench得分 83.1
发布时间 2025-11-06
参数(亿) 10400.0
查看模型详情
5
MiniMaxAI Logo
MiniMax M2 thinking
83.0
2025-10-27
2300.0
LiveCodeBench得分 83.0
发布时间 2025-10-27
参数(亿) 2300.0
查看模型详情
6
智谱AI Logo
GLM-4.6 thinking
82.8
2025-09-30
3550.0
LiveCodeBench得分 82.8
发布时间 2025-09-30
参数(亿) 3550.0
查看模型详情
7
xAI Logo
Grok 4.1 Fast thinking
82.0
2025-11-19
未知
LiveCodeBench得分 82.0
发布时间 2025-11-19
参数(亿) 未知
查看模型详情
8
xAI Logo
Grok 4 thinking
82.0
2025-07-10
未知
LiveCodeBench得分 82.0
发布时间 2025-07-10
参数(亿) 未知
查看模型详情
9
80.4
2025-06-17
未知
LiveCodeBench得分 80.4
发布时间 2025-06-17
参数(亿) 未知
查看模型详情
10
80.0
2025-09-22
6710.0
LiveCodeBench得分 80.0
发布时间 2025-09-22
参数(亿) 6710.0
查看模型详情
11
xAI Logo
Grok 4 Fast thinking
80.0
2025-09-19
未知
LiveCodeBench得分 80.0
发布时间 2025-09-19
参数(亿) 未知
查看模型详情
12
79.4
2025-02-18
未知
LiveCodeBench得分 79.4
发布时间 2025-02-18
参数(亿) 未知
查看模型详情
13
77.1
2025-05-06
未知
LiveCodeBench得分 77.1
发布时间 2025-05-06
参数(亿) 未知
查看模型详情
14
77.1
2025-06-05
未知
LiveCodeBench得分 77.1
发布时间 2025-06-05
参数(亿) 未知
查看模型详情
15
75.8
2025-04-16
未知
LiveCodeBench得分 75.8
发布时间 2025-04-16
参数(亿) 未知
查看模型详情
16
74.9
2025-09-22
6710.0
LiveCodeBench得分 74.9
发布时间 2025-09-22
参数(亿) 6710.0
查看模型详情
17
DeepSeek-AI Logo
DeepSeek-V3.1 thinking
74.8
2025-08-20
6710.0
LiveCodeBench得分 74.8
发布时间 2025-08-20
参数(亿) 6710.0
查看模型详情
18
74.1
2025-07-30
305.0
LiveCodeBench得分 74.1
发布时间 2025-07-30
参数(亿) 305.0
查看模型详情
19
74.1
2025-09-29
6710.0
LiveCodeBench得分 74.1
发布时间 2025-09-29
参数(亿) 6710.0
查看模型详情
20
74.1
2025-07-25
2350.0
LiveCodeBench得分 74.1
发布时间 2025-07-25
参数(亿) 2350.0
查看模型详情
21
73.8
2025-03-20
未知
LiveCodeBench得分 73.8
发布时间 2025-03-20
参数(亿) 未知
查看模型详情
22
73.3
2025-05-28
6710.0
LiveCodeBench得分 73.3
发布时间 2025-05-28
参数(亿) 6710.0
查看模型详情
23
智谱AI Logo
GLM-4.5 thinking
72.9
2025-07-28
3550.0
LiveCodeBench得分 72.9
发布时间 2025-07-28
参数(亿) 3550.0
查看模型详情
24
71.0
2024-12-05
未知
LiveCodeBench得分 71.0
发布时间 2024-12-05
参数(亿) 未知
查看模型详情
25
71.0
2025-09-30
未知
LiveCodeBench得分 71.0
发布时间 2025-09-30
参数(亿) 未知
查看模型详情
26
70.7
2025-04-28
2350.0
LiveCodeBench得分 70.7
发布时间 2025-04-28
参数(亿) 2350.0
查看模型详情
27
智谱AI Logo
GLM-4.5-Air thinking
70.7
2025-07-28
1060.0
LiveCodeBench得分 70.7
发布时间 2025-07-28
参数(亿) 1060.0
查看模型详情
28
70.7
2025-04-28
2350.0
LiveCodeBench得分 70.7
发布时间 2025-04-28
参数(亿) 2350.0
查看模型详情
29
70.6
2025-02-17
未知
LiveCodeBench得分 70.6
发布时间 2025-02-17
参数(亿) 未知
查看模型详情
30
70.4
2025-03-25
未知
LiveCodeBench得分 70.4
发布时间 2025-03-25
参数(亿) 未知
查看模型详情
31
69.5
2025-01-31
未知
LiveCodeBench得分 69.5
发布时间 2025-01-31
参数(亿) 未知
查看模型详情
32
67.4
2025-01-31
未知
LiveCodeBench得分 67.4
发布时间 2025-01-31
参数(亿) 未知
查看模型详情
33
67.1
2025-07-31
3210.0
LiveCodeBench得分 67.1
发布时间 2025-07-31
参数(亿) 3210.0
查看模型详情
34
67.1
2025-06-30
70.0
LiveCodeBench得分 67.1
发布时间 2025-06-30
参数(亿) 70.0
查看模型详情
35
66.0
2025-05-23
未知
LiveCodeBench得分 66.0
发布时间 2025-05-23
参数(亿) 未知
查看模型详情
36
65.9
2025-03-20
未知
LiveCodeBench得分 65.9
发布时间 2025-03-20
参数(亿) 未知
查看模型详情
37
65.9
2025-01-20
6710.0
LiveCodeBench得分 65.9
发布时间 2025-01-20
参数(亿) 6710.0
查看模型详情
38
65.7
2025-04-28
320.0
LiveCodeBench得分 65.7
发布时间 2025-04-28
参数(亿) 320.0
查看模型详情
39
65.6
2025-03-20
未知
LiveCodeBench得分 65.6
发布时间 2025-03-20
参数(亿) 未知
查看模型详情
40
65.0
2025-06-16
4560.0
LiveCodeBench得分 65.0
发布时间 2025-06-16
参数(亿) 4560.0
查看模型详情
41
64.9
2025-03-21
未知
LiveCodeBench得分 64.9
发布时间 2025-03-21
参数(亿) 未知
查看模型详情
42
63.9
2025-06-27
800.0
LiveCodeBench得分 63.9
发布时间 2025-06-27
参数(亿) 800.0
查看模型详情
43
62.3
2025-06-16
4560.0
LiveCodeBench得分 62.3
发布时间 2025-06-16
参数(亿) 4560.0
查看模型详情
44
Anthropic Logo
Haiku 4.5 thinking
62.0
2025-10-15
未知
LiveCodeBench得分 62.0
发布时间 2025-10-15
参数(亿) 未知
查看模型详情
45
61.8
2025-04-28
80.0
LiveCodeBench得分 61.8
发布时间 2025-04-28
参数(亿) 80.0
查看模型详情
46
59.6
2025-06-30
719.0
LiveCodeBench得分 59.6
发布时间 2025-06-30
参数(亿) 719.0
查看模型详情
47
59.36
2025-06-10
未知
LiveCodeBench得分 59.36
发布时间 2025-06-10
参数(亿) 未知
查看模型详情
48
59.0
2025-09-30
未知
LiveCodeBench得分 59.0
发布时间 2025-09-30
参数(亿) 未知
查看模型详情
49
57.5
2025-09-05
未知
LiveCodeBench得分 57.5
发布时间 2025-09-05
参数(亿) 未知
查看模型详情
50
阿里巴巴 Logo
Qwen3-8B thinking
57.5
2025-04-28
80.0
LiveCodeBench得分 57.5
发布时间 2025-04-28
参数(亿) 80.0
查看模型详情
51
57.0
2025-08-04
70.0
LiveCodeBench得分 57.0
发布时间 2025-08-04
参数(亿) 70.0
查看模型详情
52
56.6
2025-09-11
800.0
LiveCodeBench得分 56.6
发布时间 2025-09-11
参数(亿) 800.0
查看模型详情
53
56.6
2025-05-23
未知
LiveCodeBench得分 56.6
发布时间 2025-05-23
参数(亿) 未知
查看模型详情
54
56.4
2025-08-20
6710.0
LiveCodeBench得分 56.4
发布时间 2025-08-20
参数(亿) 6710.0
查看模型详情
55
56.0
2025-09-30
3550.0
LiveCodeBench得分 56.0
发布时间 2025-09-30
参数(亿) 3550.0
查看模型详情
56
55.84
2025-06-10
240.0
LiveCodeBench得分 55.84
发布时间 2025-06-10
参数(亿) 240.0
查看模型详情
57
55.4
2025-04-17
未知
LiveCodeBench得分 55.4
发布时间 2025-04-17
参数(亿) 未知
查看模型详情
58
55.2
2025-08-06
40.0
LiveCodeBench得分 55.2
发布时间 2025-08-06
参数(亿) 40.0
查看模型详情
59
OpenAI Logo
GPT-5-mini thinking
55.0
2025-08-07
未知
LiveCodeBench得分 55.0
发布时间 2025-08-07
参数(亿) 未知
查看模型详情
60
55.0
2025-09-29
6710.0
LiveCodeBench得分 55.0
发布时间 2025-09-29
参数(亿) 6710.0
查看模型详情
61
53.7
2025-07-11
10000.0
LiveCodeBench得分 53.7
发布时间 2025-07-11
参数(亿) 10000.0
查看模型详情
62
52.0
2024-09-12
未知
LiveCodeBench得分 52.0
发布时间 2024-09-12
参数(亿) 未知
查看模型详情
63
51.8
2025-07-21
2350.0
LiveCodeBench得分 51.8
发布时间 2025-07-21
参数(亿) 2350.0
查看模型详情
64
51.8
2024-06-05
90.0
LiveCodeBench得分 51.8
发布时间 2024-06-05
参数(亿) 90.0
查看模型详情
65
51.2
2024-09-18
320.0
LiveCodeBench得分 51.2
发布时间 2024-09-18
参数(亿) 320.0
查看模型详情
66
51.0
2025-10-15
未知
LiveCodeBench得分 51.0
发布时间 2025-10-15
参数(亿) 未知
查看模型详情
67
49.4
2025-04-05
20000.0
LiveCodeBench得分 49.4
发布时间 2025-04-05
参数(亿) 20000.0
查看模型详情
68
49.2
2025-03-24
6710.0
LiveCodeBench得分 49.2
发布时间 2025-03-24
参数(亿) 6710.0
查看模型详情
69
48.5
2025-05-23
未知
LiveCodeBench得分 48.5
发布时间 2025-05-23
参数(亿) 未知
查看模型详情
70
46.4
2025-02-28
未知
LiveCodeBench得分 46.4
发布时间 2025-02-28
参数(亿) 未知
查看模型详情
71
43.4
2025-04-05
4000.0
LiveCodeBench得分 43.4
发布时间 2025-04-05
参数(亿) 4000.0
查看模型详情
72
43.2
2025-07-29
305.0
LiveCodeBench得分 43.2
发布时间 2025-07-29
参数(亿) 305.0
查看模型详情
73
41.1
2025-04-17
未知
LiveCodeBench得分 41.1
发布时间 2025-04-17
参数(亿) 未知
查看模型详情
74
40.5
2025-04-14
未知
LiveCodeBench得分 40.5
发布时间 2025-04-14
参数(亿) 未知
查看模型详情
75
38.8
2025-06-30
3000.0
LiveCodeBench得分 38.8
发布时间 2025-06-30
参数(亿) 3000.0
查看模型详情
76
38.8
2025-06-30
4240.0
LiveCodeBench得分 38.8
发布时间 2025-06-30
参数(亿) 4240.0
查看模型详情
77
38.7
2024-10-22
未知
LiveCodeBench得分 38.7
发布时间 2024-10-22
参数(亿) 未知
查看模型详情
78
37.9
2025-01-13
未知
LiveCodeBench得分 37.9
发布时间 2025-01-13
参数(亿) 未知
查看模型详情
79
35.8
2025-03-27
未知
LiveCodeBench得分 35.8
发布时间 2025-03-27
参数(亿) 未知
查看模型详情
80
35.1
2024-05-13
未知
LiveCodeBench得分 35.1
发布时间 2024-05-13
参数(亿) 未知
查看模型详情
81
35.1
2025-08-06
40.0
LiveCodeBench得分 35.1
发布时间 2025-08-06
参数(亿) 40.0
查看模型详情
82
34.6
2024-12-26
6810.0
LiveCodeBench得分 34.6
发布时间 2024-12-26
参数(亿) 6810.0
查看模型详情
83
34.3
2025-06-17
未知
LiveCodeBench得分 34.3
发布时间 2025-06-17
参数(亿) 未知
查看模型详情
84
33.3
2024-12-06
700.0
LiveCodeBench得分 33.3
发布时间 2024-12-06
参数(亿) 700.0
查看模型详情
85
33.3
2024-07-23
700.0
LiveCodeBench得分 33.3
发布时间 2024-07-23
参数(亿) 700.0
查看模型详情
86
32.8
2025-04-05
1090.0
LiveCodeBench得分 32.8
发布时间 2025-04-05
参数(亿) 1090.0
查看模型详情
87
32.0
2025-03-10
未知
LiveCodeBench得分 32.0
发布时间 2025-03-10
参数(亿) 未知
查看模型详情
88
31.5
2024-05-29
220.0
LiveCodeBench得分 31.5
发布时间 2024-05-29
参数(亿) 220.0
查看模型详情
89
30.2
2024-07-23
4050.0
LiveCodeBench得分 30.2
发布时间 2024-07-23
参数(亿) 4050.0
查看模型详情
90
29.7
2025-03-12
270.0
LiveCodeBench得分 29.7
发布时间 2025-03-12
参数(亿) 270.0
查看模型详情
91
29.1
2024-12-11
未知
LiveCodeBench得分 29.1
发布时间 2024-12-11
参数(亿) 未知
查看模型详情
92
29.0
2025-04-28
305.0
LiveCodeBench得分 29.0
发布时间 2025-04-28
参数(亿) 305.0
查看模型详情
93
28.9
2025-02-05
未知
LiveCodeBench得分 28.9
发布时间 2025-02-05
参数(亿) 未知
查看模型详情
94
24.6
2025-03-12
120.0
LiveCodeBench得分 24.6
发布时间 2025-03-12
参数(亿) 120.0
查看模型详情