SimpleQA
2024年10月,OpenAI推出了一款名为**SimpleQA**的全新评测基准,旨在解决语言模型生成内容中的“幻觉”问题(即模型生成看似合理但实际错误的信息),并通过开源方式推动AI生成内容的可靠性发展。这一基准的发布标志着AI领域在事实性评估方面迈出了重要一步。
更新于 2026-04-11
1,375 次浏览
问题数量
4326
发布机构
OpenAI
评测类别
常识问答
评测指标
Accuracy
支持语言
英文
难度等级
高难度
简介
OpenAI发布的一个针对大模型事实问答的能力评测基准,可以有效检验模型幻觉严重程度
相关资源
SimpleQA 大模型得分排行榜
数据来源:DataLearnerAI
数据优先来自官方发布(GitHub、Hugging Face、论文),其次为评测基准官方结果,最后为第三方评测机构数据。 了解数据收集方法
模式说明:
normal
thinking
low
medium
high
deeper thinking
parallel_thinking
图表加载中...
SimpleQA评测最新大模型排名与完整榜单数据
查看 SimpleQA 的最新得分、模型模式、发布时间与参数规模,快速了解当前完整榜单表现。
模型发布时间截止:
SimpleQA详细排名数据表格
| 排名 | 模型 | |||
|---|---|---|---|---|
| 1 | DeepSeek V3.2-Exp 开启思考工具 | 97.10 | 2025-09-29 | 6710 |
| 2 | 96.80 | 2025-09-22 | 6710 | |
| 3 | Grok 4 Fast 开启思考工具 | 95.00 | 2025-09-19 | 未知 |
| 4 | DeepSeek-V3.1 开启思考 | 93.40 | 2025-08-20 | 6710 |
| 5 | 72.10 | 2025-11-18 | 未知 | |
| 6 | Claude Opus 4.6 扩展思考 | 72.00 | 2026-02-05 | 未知 |
| 7 | Gemini 3.0 Flash 开启思考 | 68.70 | 2025-12-17 | 未知 |
| 8 | GPT-4.5 常规模式 | 62.50 | 2025-02-28 | 未知 |
| 9 | 54.30 | 2025-07-21 | 2350 | |
| 10 | 54.00 | 2025-05-06 | 未知 | |
| 11 | Gemini 2.5-Pro 常规模式 | 54.00 | 2025-06-05 | 未知 |
| 12 | 52.90 | 2025-03-25 | 未知 | |
| 13 | OpenAI o3 常规模式 | 49.40 | 2025-04-16 | 未知 |
| 14 | 45.90 | 2025-06-30 | 3000 | |
| 15 | 44.30 | 2025-02-05 | 未知 | |
| 16 | Grok 3 常规模式 | 43.40 | 2025-02-17 | 未知 |
| 17 | OpenAI o1 常规模式 | 42.60 | 2024-12-05 | 未知 |
| 18 | 40.30 | 2025-03-27 | 未知 | |
| 19 | 38.80 | 2024-11-20 | 未知 | |
| 20 | GPT-4o 常规模式 | 38.20 | 2024-05-13 | 未知 |
| 21 | Kimi K2 常规模式 | 31.00 | 2025-07-11 | 10000 |
| 22 | DeepSeek-R1 常规模式 | 30.10 | 2025-01-20 | 6710 |
| 23 | 29.90 | 2024-12-11 | 未知 | |
| 24 | 28.40 | 2024-10-22 | 未知 | |
| 25 | DeepSeek-R1-0528 开启思考 | 27.80 | 2025-05-28 | 6710 |
| 26 | DeepSeek-V3-0324 常规模式 | 27.20 | 2025-03-24 | 6710 |
| 27 | Gemini 2.5 Flash 开启思考 | 26.90 | 2025-04-17 | 未知 |
| 28 | Gemini 2.5 Flash 常规模式 | 25.80 | 2025-04-17 | 未知 |
| 29 | DeepSeek-V3 常规模式 | 24.90 | 2024-12-26 | 6810 |
| 30 | Hunyuan-TurboS 常规模式 | 22.80 | 2025-03-10 | 未知 |
滚动或悬停加载剩余 15 条