Creative Writing

Updated Apr 22, 2026·2,499 views

Problem Count: 32
Institution: Independent
Category: Writing and Creative Tasks
Metrics: Human evaluation
Language: English
Difficulty: Medium

Overview

A benchmark that uses strong model judges to evaluate the quality of creative writing produced by language models.

Related resources

Latest Creative Writing model rankings and full benchmark leaderboard

Browse the latest scores, model modes, release dates, and parameter sizes for Creative Writing.

Source: DataLearnerAI

Data sourced primarily from official releases (GitHub, Hugging Face, papers), then benchmark leaderboards, then third-party evaluators. Learn about our data methodology

Model Mode Legend

License:

Origin:

Model release cutoff:

Rank	Model				License
	Kimi K2 Standard Mode	88.10	2025-07-11	1000B	Free Commercial
	OpenAI o3 Standard Mode	87.65	2025-04-16	Unknown	Closed
	Qwen3-235B-A22B-2507 Standard Mode	87.50	2025-07-21	235B	Free Commercial
4	DeepSeek-R1-0528 Thinking Enabled	86.25	2025-05-28	671B	Free Commercial
5	Qwen3-235B-A22B-Thinking-2507 Thinking Enabled	86.10	2025-07-25	235B	Free Commercial
6	Qwen3-235B-A22B-Thinking Thinking Enabled	86.10	2025-07-30	30.5B	Free Commercial
7	Qwen3-30B-A3B-2507 Standard Mode	86.00	2025-07-29	30.5B	Free Commercial
8	Gemini 2.5-Pro Standard Mode	85.85	2025-06-05	Unknown	Closed
9	Qwen3-Next Standard Mode	85.30	2025-09-11	80B	Free Commercial
10	GPT-4o(2025-03-27) Standard Mode	84.90	2025-03-27	Unknown	Closed
11	DeepSeek-R1 Standard Mode	84.60	2025-01-20	671B	Free Commercial
12	Qwen3-235B-A22B Thinking Enabled	84.60	2025-04-28	235B	Free Commercial
13	Claude Opus 4 Standard Mode	83.75	2025-05-23	Unknown	Closed
14	Claude Sonnet 4 Standard Mode	83.05	2025-05-23	Unknown	Closed
15	DeepSeek-V3 Standard Mode	81.60	2024-12-26	681B	Free Commercial
16	DeepSeek-V3-0324 Standard Mode	81.60	2025-03-24	671B	Free Commercial
17	Qwen3-32B Thinking Enabled	81.00	2025-04-28	32B	Free Commercial
18	Qwen3-235B-A22B Standard Mode	80.40	2025-04-28	235B	Free Commercial
19	Qwen3-32B Standard Mode	78.30	2025-04-28	32B	Free Commercial
20	Claude 3.5 Sonnet New Standard Mode	78.15	2024-10-22	Unknown	Closed
21	Qwen3-8B Thinking Enabled	75.00	2025-04-28	8B	Free Commercial
22	Qwen3-30B-A3B Standard Mode	68.10	2025-04-28	30.5B	Free Commercial
23	Qwen3-8B Standard Mode	64.50	2025-04-28	8B	Free Commercial

Latest Creative Writing model rankings and full benchmark leaderboard

Creative Writing Rank