SimpleQA
2024年10月,OpenAI推出了一款名为**SimpleQA**的全新评测基准,旨在解决语言模型生成内容中的“幻觉”问题(即模型生成看似合理但实际错误的信息),并通过开源方式推动AI生成内容的可靠性发展。这一基准的发布标志着AI领域在事实性评估方面迈出了重要一步。
更新于 2026-04-11
1,376 次浏览
问题数量
4326
发布机构
OpenAI
评测类别
常识问答
评测指标
Accuracy
支持语言
英文
难度等级
高难度
简介
OpenAI发布的一个针对大模型事实问答的能力评测基准,可以有效检验模型幻觉严重程度
相关资源
SimpleQA Model Score Leaderboard
Source: DataLearnerAI
Data sourced primarily from official releases (GitHub, Hugging Face, papers), then benchmark leaderboards, then third-party evaluators. Learn about our data methodology
模式说明:
normal
thinking
low
medium
high
deeper thinking
parallel_thinking
图表加载中...
Latest SimpleQA model rankings and full benchmark leaderboard
Browse the latest scores, model modes, release dates, and parameter sizes for SimpleQA.
Model release cutoff:
SimpleQA详细排名数据表格
| 排名 | 模型 | |||
|---|---|---|---|---|
| 1 | DeepSeek V3.2-Exp Thinking EnabledTools | 97.10 | 2025-09-29 | 6710 |
| 2 | DeepSeek-V3.1 Terminus Standard Mode | 96.80 | 2025-09-22 | 6710 |
| 3 | Grok 4 Fast Thinking EnabledTools | 95.00 | 2025-09-19 | 未知 |
| 4 | DeepSeek-V3.1 Thinking Enabled | 93.40 | 2025-08-20 | 6710 |
| 5 | Gemini 3.0 Pro (Preview 11-2025) Thinking Enabled | 72.10 | 2025-11-18 | 未知 |
| 6 | Claude Opus 4.6 Extended Thinking | 72.00 | 2026-02-05 | 未知 |
| 7 | Gemini 3.0 Flash Thinking Enabled | 68.70 | 2025-12-17 | 未知 |
| 8 | GPT-4.5 Standard Mode | 62.50 | 2025-02-28 | 未知 |
| 9 | Qwen3-235B-A22B-2507 Standard Mode | 54.30 | 2025-07-21 | 2350 |
| 10 | Gemini-2.5-Pro-Preview-05-06 Standard Mode | 54.00 | 2025-05-06 | 未知 |
| 11 | Gemini 2.5-Pro Standard Mode | 54.00 | 2025-06-05 | 未知 |
| 12 | Gemini 2.5 Pro Experimental 03-25 Standard Mode | 52.90 | 2025-03-25 | 未知 |
| 13 | OpenAI o3 Standard Mode | 49.40 | 2025-04-16 | 未知 |
| 14 | ERNIE-4.5-300B-A47B Standard Mode | 45.90 | 2025-06-30 | 3000 |
| 15 | Gemini 2.0 Pro Experimental Standard Mode | 44.30 | 2025-02-05 | 未知 |
| 16 | Grok 3 Standard Mode | 43.40 | 2025-02-17 | 未知 |
| 17 | OpenAI o1 Standard Mode | 42.60 | 2024-12-05 | 未知 |
| 18 | GPT-4o(2025-03-27) Standard Mode | 40.30 | 2025-03-27 | 未知 |
| 19 | GPT-4o(2024-11-20) Standard Mode | 38.80 | 2024-11-20 | 未知 |
| 20 | GPT-4o Standard Mode | 38.20 | 2024-05-13 | 未知 |
| 21 | Kimi K2 Standard Mode | 31.00 | 2025-07-11 | 10000 |
| 22 | DeepSeek-R1 Standard Mode | 30.10 | 2025-01-20 | 6710 |
| 23 | Gemini 2.0 Flash Experimental Standard Mode | 29.90 | 2024-12-11 | 未知 |
| 24 | Claude 3.5 Sonnet New Standard Mode | 28.40 | 2024-10-22 | 未知 |
| 25 | DeepSeek-R1-0528 Thinking Enabled | 27.80 | 2025-05-28 | 6710 |
| 26 | DeepSeek-V3-0324 Standard Mode | 27.20 | 2025-03-24 | 6710 |
| 27 | Gemini 2.5 Flash Thinking Enabled | 26.90 | 2025-04-17 | 未知 |
| 28 | Gemini 2.5 Flash Standard Mode | 25.80 | 2025-04-17 | 未知 |
| 29 | DeepSeek-V3 Standard Mode | 24.90 | 2024-12-26 | 6810 |
| 30 | Hunyuan-TurboS Standard Mode | 22.80 | 2025-03-10 | 未知 |
滚动或悬停加载剩余 15 条