SimpleQA

Name: SimpleQA
Creator: OpenAI

Updated Jul 18, 2026·2,098 views

Problem Count: 4326
Institution: OpenAI
Category: Commonsense QA
Metrics: Accuracy
Language: English
Difficulty: Mixed

Overview

An OpenAI factual question-answering benchmark that measures short-form factual accuracy and helps reveal hallucinations.

Related resources

Latest SimpleQA model rankings and full benchmark leaderboard

Browse the latest scores, model modes, release dates, and parameter sizes for SimpleQA.

Source: DataLearnerAI

Data sourced primarily from official releases (GitHub, Hugging Face, papers), then benchmark leaderboards, then third-party evaluators. Learn about our data methodology

Model Mode Legend

License:

Origin:

Model release cutoff:

Rank	Model				License
	DeepSeek V3.2-Exp Thinking EnabledTools	97.10	2025-09-29	671B	Free Commercial
	DeepSeek-V3.1 Terminus Standard Mode	96.80	2025-09-22	671B	Free Commercial
	Grok 4 Fast Thinking EnabledTools	95.00	2025-09-19	Unknown	Closed
4	DeepSeek-V3.1 Thinking Enabled	93.40	2025-08-20	671B	Free Commercial
5	ERNIE 5.0 Thinking Enabled	74.01	2025-11-13	2400B	Closed
6	Gemini 3.0 Pro (Preview 11-2025) Thinking Enabled	72.10	2025-11-18	Unknown	Closed
7	Claude Opus 4.6 Extended Thinking	72.00	2026-02-05	Unknown	Closed
8	Gemini 3.0 Flash Thinking Enabled	68.70	2025-12-17	Unknown	Closed
9	GPT-4.5 Standard Mode	62.50	2025-02-28	Unknown	Closed
10	Qwen3-235B-A22B-2507 Standard Mode	54.30	2025-07-21	235B	Free Commercial
11	Gemini-2.5-Pro-Preview-05-06 Standard Mode	54.00	2025-05-06	Unknown	Closed
12	Gemini 2.5-Pro Standard Mode	54.00	2025-06-05	Unknown	Closed
13	Gemini 2.5 Pro Experimental 03-25 Standard Mode	52.90	2025-03-25	Unknown	Closed
14	OpenAI o3 Standard Mode	49.40	2025-04-16	Unknown	Closed
15	ERNIE-4.5-300B-A47B Standard Mode	45.90	2025-06-30	300B	Free Commercial
16	Gemini 2.0 Pro Experimental Standard Mode	44.30	2025-02-05	Unknown	Closed
17	Inkling Thinking Enabled	43.90	2026-07-15	975B	Free Commercial
18	Grok 3 Standard Mode	43.40	2025-02-17	Unknown	Closed
19	OpenAI o1 Standard Mode	42.60	2024-12-05	Unknown	Closed
20	GPT-4o(2025-03-27) Standard Mode	40.30	2025-03-27	Unknown	Closed
21	GPT-4o(2024-11-20) Standard Mode	38.80	2024-11-20	Unknown	Closed
22	GPT-4o Standard Mode	38.20	2024-05-13	Unknown	Closed
23	Kimi K2 Standard Mode	31.00	2025-07-11	1000B	Free Commercial
24	DeepSeek-R1 Standard Mode	30.10	2025-01-20	671B	Free Commercial
25	Gemini 2.0 Flash Experimental Standard Mode	29.90	2024-12-11	Unknown	Closed
26	Claude 3.5 Sonnet New Standard Mode	28.40	2024-10-22	Unknown	Closed
27	DeepSeek-R1-0528 Thinking Enabled	27.80	2025-05-28	671B	Free Commercial
28	DeepSeek-V3-0324 Standard Mode	27.20	2025-03-24	671B	Free Commercial
29	Gemini 2.5 Flash Thinking Enabled	26.90	2025-04-17	Unknown	Closed
30	Gemini 2.5 Flash Standard Mode	25.80	2025-04-17	Unknown	Closed

Scroll to load 17 more

Latest SimpleQA model rankings and full benchmark leaderboard

SimpleQA Rank