LiveBench 评测基准详情

75

LiveBench是一个针对大型语言模型(LLM)的基准测试框架。该框架通过每月更新基于近期来源的问题集来评估模型性能。问题集涵盖数学、编码、推理、语言理解、指令遵循和数据分析等类别。LiveBench采用自动评分机制,确保评估基于客观事实而非主观判断。基准测试的总问题数量约为1000个,每月替换约1/6的问题,以维持测试的有效性。

模型模式说明

不同模式会显著影响成绩,请在对比榜单时留意标签提示。

提示:若某条记录未显示任何标签,即默认是 normal 常规模式。

normal

常规推理:单步推理,不延长思考、也不调用额外工具。

thinking low medium high

Thinking 系列:常规延长思考时间,low/medium/high 代表不同耗时或深度,各厂商叫法不同。

deeper thinking

Deeper thinking:在 Thinking 基础上进一步延长思考链条,通常意味着更多算力与时间。

使用工具 / 联网

允许调用检索、浏览器、代码解释器等外部能力。

parallel_thinking

并行思考:多线程/多代理协同探索再汇总,通常只在厂商内部实验环境中启用、尚未对外开放,因此被视为“作弊”模式。

LiveBench 大模型得分排行榜

数据来源:DataLearnerAI

LiveBench详细排名数据表格

默认:仅展示常规/非并行的评测结果,可按需查看并行思考成绩。

默认隐藏并行思考结果。

排名
模型
得分
发布时间
参数(亿)
1
79.7
2025-11-18
未知
LiveBench得分 79.7
发布时间 2025-11-18
参数(亿) 未知
查看模型详情
2
OpenAI Logo
GPT-5 high
79.33
2025-08-07
未知
LiveBench得分 79.33
发布时间 2025-08-07
参数(亿) 未知
查看模型详情
3
OpenAI Logo
GPT-5 medium
78.85
2025-08-07
未知
LiveBench得分 78.85
发布时间 2025-08-07
参数(亿) 未知
查看模型详情
4
OpenAI Logo
GPT-5-Pro thinking
78.73
2025-08-07
未知
LiveBench得分 78.73
发布时间 2025-08-07
参数(亿) 未知
查看模型详情
5
78.26
2025-09-30
未知
LiveBench得分 78.26
发布时间 2025-09-30
参数(亿) 未知
查看模型详情
6
OpenAI Logo
GPT-5 Codex thinking
78.24
2025-09-15
未知
LiveBench得分 78.24
发布时间 2025-09-15
参数(亿) 未知
查看模型详情
7
75.25
2025-08-06
未知
LiveBench得分 75.25
发布时间 2025-08-06
参数(亿) 未知
查看模型详情
8
73.82
2025-05-23
未知
LiveBench得分 73.82
发布时间 2025-05-23
参数(亿) 未知
查看模型详情
9
72.84
2025-07-10
未知
LiveBench得分 72.84
发布时间 2025-07-10
参数(亿) 未知
查看模型详情
10
Google Deep Mind Logo
Gemini 2.5-Pro thinking
71.92
2025-06-05
未知
LiveBench得分 71.92
发布时间 2025-06-05
参数(亿) 未知
查看模型详情
11
71.86
2025-08-07
未知
LiveBench得分 71.86
发布时间 2025-08-07
参数(亿) 未知
查看模型详情
12
71.64
2025-09-29
6710.0
LiveBench得分 71.64
发布时间 2025-09-29
参数(亿) 6710.0
查看模型详情
13
71.4
2025-09-22
6710.0
LiveBench得分 71.4
发布时间 2025-09-22
参数(亿) 6710.0
查看模型详情
14
Anthropic Logo
Haiku 4.5 thinking
71.38
2025-10-15
未知
LiveBench得分 71.38
发布时间 2025-10-15
参数(亿) 未知
查看模型详情
15
71.22
2025-09-30
3550.0
LiveBench得分 71.22
发布时间 2025-09-30
参数(亿) 3550.0
查看模型详情
16
智谱AI Logo
GLM-4.6 thinking
71.22
2025-09-30
3550.0
LiveBench得分 71.22
发布时间 2025-09-30
参数(亿) 3550.0
查看模型详情
17
70.56
2025-09-30
未知
LiveBench得分 70.56
发布时间 2025-09-30
参数(亿) 未知
查看模型详情
18
69.86
2025-09-05
未知
LiveBench得分 69.86
发布时间 2025-09-05
参数(亿) 未知
查看模型详情
19
69.41
2025-01-20
6710.0
LiveBench得分 69.41
发布时间 2025-01-20
参数(亿) 6710.0
查看模型详情
20
69.11
2025-07-25
2350.0
LiveBench得分 69.11
发布时间 2025-07-25
参数(亿) 2350.0
查看模型详情
21
68.64
2025-02-25
未知
LiveBench得分 68.64
发布时间 2025-02-25
参数(亿) 未知
查看模型详情
22
68.2
2025-09-25
未知
LiveBench得分 68.2
发布时间 2025-09-25
参数(亿) 未知
查看模型详情
23
68.09
2025-09-19
未知
LiveBench得分 68.09
发布时间 2025-09-19
参数(亿) 未知
查看模型详情
24
67.93
2025-11-06
10400.0
LiveBench得分 67.93
发布时间 2025-11-06
参数(亿) 10400.0
查看模型详情
25
67.77
2025-08-06
未知
LiveBench得分 67.77
发布时间 2025-08-06
参数(亿) 未知
查看模型详情
26
66.64
2025-09-29
6710.0
LiveBench得分 66.64
发布时间 2025-09-29
参数(亿) 6710.0
查看模型详情
27
65.4
2025-05-23
未知
LiveBench得分 65.4
发布时间 2025-05-23
参数(亿) 未知
查看模型详情
28
65.18
2025-07-21
2350.0
LiveBench得分 65.18
发布时间 2025-07-21
参数(亿) 2350.0
查看模型详情
29
65.0
2025-07-28
3550.0
LiveBench得分 65.0
发布时间 2025-07-28
参数(亿) 3550.0
查看模型详情
30
64.71
2025-09-22
6710.0
LiveBench得分 64.71
发布时间 2025-09-22
参数(亿) 6710.0
查看模型详情
31
阿里巴巴 Logo
Qwen3-Next thinking
64.57
2025-09-11
800.0
LiveBench得分 64.57
发布时间 2025-09-11
参数(亿) 800.0
查看模型详情
32
64.35
2025-04-17
未知
LiveBench得分 64.35
发布时间 2025-04-17
参数(亿) 未知
查看模型详情
33
64.26
2025-10-27
2300.0
LiveBench得分 64.26
发布时间 2025-10-27
参数(亿) 2300.0
查看模型详情
34
MiniMaxAI Logo
MiniMax M2 thinking
64.26
2025-10-27
2300.0
LiveBench得分 64.26
发布时间 2025-10-27
参数(亿) 2300.0
查看模型详情
35
63.77
2025-07-11
10000.0
LiveBench得分 63.77
发布时间 2025-07-11
参数(亿) 10000.0
查看模型详情
36
63.42
2025-07-30
305.0
LiveBench得分 63.42
发布时间 2025-07-30
参数(亿) 305.0
查看模型详情
37
62.78
2025-04-28
320.0
LiveBench得分 62.78
发布时间 2025-04-28
参数(亿) 320.0
查看模型详情
38
61.66
2025-07-23
4800.0
LiveBench得分 61.66
发布时间 2025-07-23
参数(亿) 4800.0
查看模型详情
39
60.53
2025-07-28
1060.0
LiveBench得分 60.53
发布时间 2025-07-28
参数(亿) 1060.0
查看模型详情
40
60.42
2025-10-15
未知
LiveBench得分 60.42
发布时间 2025-10-15
参数(亿) 未知
查看模型详情
41
60.4
2025-02-25
未知
LiveBench得分 60.4
发布时间 2025-02-25
参数(亿) 未知
查看模型详情
42
59.37
2025-08-28
未知
LiveBench得分 59.37
发布时间 2025-08-28
参数(亿) 未知
查看模型详情
43
59.0
2025-08-07
未知
LiveBench得分 59.0
发布时间 2025-08-07
参数(亿) 未知
查看模型详情
44
58.46
2025-09-25
未知
LiveBench得分 58.46
发布时间 2025-09-25
参数(亿) 未知
查看模型详情
45
58.42
2025-06-17
未知
LiveBench得分 58.42
发布时间 2025-06-17
参数(亿) 未知
查看模型详情
46
57.8
2025-04-28
305.0
LiveBench得分 57.8
发布时间 2025-04-28
参数(亿) 305.0
查看模型详情
47
55.56
2025-08-06
117.0
LiveBench得分 55.56
发布时间 2025-08-06
参数(亿) 117.0
查看模型详情
48
44.09
2025-03-13
1110.0
LiveBench得分 44.09
发布时间 2025-03-13
参数(亿) 1110.0
查看模型详情