SimpleQA 评测基准详情

148

2024年10月,OpenAI推出了一款名为**SimpleQA**的全新评测基准,旨在解决语言模型生成内容中的“幻觉”问题(即模型生成看似合理但实际错误的信息),并通过开源方式推动AI生成内容的可靠性发展。这一基准的发布标志着AI领域在事实性评估方面迈出了重要一步。

模型模式说明

不同模式会显著影响成绩,请在对比榜单时留意标签提示。

提示:若某条记录未显示任何标签,即默认是 normal 常规模式。

normal

常规推理:单步推理,不延长思考、也不调用额外工具。

thinking low medium high

Thinking 系列:常规延长思考时间,low/medium/high 代表不同耗时或深度,各厂商叫法不同。

deeper thinking

Deeper thinking:在 Thinking 基础上进一步延长思考链条,通常意味着更多算力与时间。

使用工具 / 联网

允许调用检索、浏览器、代码解释器等外部能力。

parallel_thinking

并行思考:多线程/多代理协同探索再汇总,通常只在厂商内部实验环境中启用、尚未对外开放,因此被视为“作弊”模式。

SimpleQA 大模型得分排行榜

数据来源:DataLearnerAI

SimpleQA详细排名数据表格

默认:仅展示常规/非并行的评测结果,可按需查看并行思考成绩。

默认隐藏并行思考结果。

排名
模型
得分
发布时间
参数(亿)
1
DeepSeek-AI Logo
DeepSeek V3.2-Exp thinking + 使用工具
97.1
2025-09-29
6710.0
SimpleQA得分 97.1
发布时间 2025-09-29
参数(亿) 6710.0
查看模型详情
2
96.8
2025-09-22
6710.0
SimpleQA得分 96.8
发布时间 2025-09-22
参数(亿) 6710.0
查看模型详情
3
xAI Logo
Grok 4 Fast thinking + 使用工具
95.0
2025-09-19
未知
SimpleQA得分 95.0
发布时间 2025-09-19
参数(亿) 未知
查看模型详情
4
DeepSeek-AI Logo
DeepSeek-V3.1 thinking
93.4
2025-08-20
6710.0
SimpleQA得分 93.4
发布时间 2025-08-20
参数(亿) 6710.0
查看模型详情
5
72.1
2025-11-18
未知
SimpleQA得分 72.1
发布时间 2025-11-18
参数(亿) 未知
查看模型详情
6
62.5
2025-02-28
未知
SimpleQA得分 62.5
发布时间 2025-02-28
参数(亿) 未知
查看模型详情
7
54.3
2025-07-21
2350.0
SimpleQA得分 54.3
发布时间 2025-07-21
参数(亿) 2350.0
查看模型详情
8
54.0
2025-05-06
未知
SimpleQA得分 54.0
发布时间 2025-05-06
参数(亿) 未知
查看模型详情
9
54.0
2025-06-05
未知
SimpleQA得分 54.0
发布时间 2025-06-05
参数(亿) 未知
查看模型详情
10
52.9
2025-03-25
未知
SimpleQA得分 52.9
发布时间 2025-03-25
参数(亿) 未知
查看模型详情
11
49.4
2025-04-16
未知
SimpleQA得分 49.4
发布时间 2025-04-16
参数(亿) 未知
查看模型详情
12
45.9
2025-06-30
3000.0
SimpleQA得分 45.9
发布时间 2025-06-30
参数(亿) 3000.0
查看模型详情
13
44.3
2025-02-05
未知
SimpleQA得分 44.3
发布时间 2025-02-05
参数(亿) 未知
查看模型详情
14
43.4
2025-02-17
未知
SimpleQA得分 43.4
发布时间 2025-02-17
参数(亿) 未知
查看模型详情
15
42.6
2024-12-05
未知
SimpleQA得分 42.6
发布时间 2024-12-05
参数(亿) 未知
查看模型详情
16
40.3
2025-03-27
未知
SimpleQA得分 40.3
发布时间 2025-03-27
参数(亿) 未知
查看模型详情
17
38.8
2024-11-20
未知
SimpleQA得分 38.8
发布时间 2024-11-20
参数(亿) 未知
查看模型详情
18
38.2
2024-05-13
未知
SimpleQA得分 38.2
发布时间 2024-05-13
参数(亿) 未知
查看模型详情
19
31.0
2025-07-11
10000.0
SimpleQA得分 31.0
发布时间 2025-07-11
参数(亿) 10000.0
查看模型详情
20
30.1
2025-01-20
6710.0
SimpleQA得分 30.1
发布时间 2025-01-20
参数(亿) 6710.0
查看模型详情
21
29.9
2024-12-11
未知
SimpleQA得分 29.9
发布时间 2024-12-11
参数(亿) 未知
查看模型详情
22
28.4
2024-10-22
未知
SimpleQA得分 28.4
发布时间 2024-10-22
参数(亿) 未知
查看模型详情
23
27.8
2025-05-28
6710.0
SimpleQA得分 27.8
发布时间 2025-05-28
参数(亿) 6710.0
查看模型详情
24
27.2
2025-03-24
6710.0
SimpleQA得分 27.2
发布时间 2025-03-24
参数(亿) 6710.0
查看模型详情
25
26.9
2025-04-17
未知
SimpleQA得分 26.9
发布时间 2025-04-17
参数(亿) 未知
查看模型详情
26
25.8
2025-04-17
未知
SimpleQA得分 25.8
发布时间 2025-04-17
参数(亿) 未知
查看模型详情
27
24.9
2024-12-26
6810.0
SimpleQA得分 24.9
发布时间 2024-12-26
参数(亿) 6810.0
查看模型详情
28
22.8
2025-03-10
未知
SimpleQA得分 22.8
发布时间 2025-03-10
参数(亿) 未知
查看模型详情
29
21.7
2025-02-05
未知
SimpleQA得分 21.7
发布时间 2025-02-05
参数(亿) 未知
查看模型详情
30
18.5
2025-06-16
4560.0
SimpleQA得分 18.5
发布时间 2025-06-16
参数(亿) 4560.0
查看模型详情
31
17.9
2025-06-16
4560.0
SimpleQA得分 17.9
发布时间 2025-06-16
参数(亿) 4560.0
查看模型详情
32
17.1
2024-07-23
4050.0
SimpleQA得分 17.1
发布时间 2024-07-23
参数(亿) 4050.0
查看模型详情
33
13.8
2025-01-31
未知
SimpleQA得分 13.8
发布时间 2025-01-31
参数(亿) 未知
查看模型详情
34
13.0
2025-06-17
未知
SimpleQA得分 13.0
发布时间 2025-06-17
参数(亿) 未知
查看模型详情
35
12.1
2025-06-20
240.0
SimpleQA得分 12.1
发布时间 2025-06-20
参数(亿) 240.0
查看模型详情
36
11.0
2025-04-28
2350.0
SimpleQA得分 11.0
发布时间 2025-04-28
参数(亿) 2350.0
查看模型详情
37
10.43
2025-03-17
240.0
SimpleQA得分 10.43
发布时间 2025-03-17
参数(亿) 240.0
查看模型详情
38
10.0
2025-03-12
270.0
SimpleQA得分 10.0
发布时间 2025-03-12
参数(亿) 270.0
查看模型详情
39
9.5
2024-07-18
未知
SimpleQA得分 9.5
发布时间 2024-07-18
参数(亿) 未知
查看模型详情
40
8.02
2024-10-22
未知
SimpleQA得分 8.02
发布时间 2024-10-22
参数(亿) 未知
查看模型详情
41
7.65
2025-03-04
320.0
SimpleQA得分 7.65
发布时间 2025-03-04
参数(亿) 320.0
查看模型详情
42
6.3
2025-03-12
120.0
SimpleQA得分 6.3
发布时间 2025-03-12
参数(亿) 120.0
查看模型详情
43
0.0
2025-05-06
未知
SimpleQA得分 0.0
发布时间 2025-05-06
参数(亿) 未知
查看模型详情