Creative Writing评测基准：大模型排名与测试结果 | DataLearnerAI

Creative Writing

Creative Writing v3 是一个用于评估大型语言模型（LLM）创意写作能力的评测基准。该基准采用混合评分系统，旨在更精确地区分不同模型，特别是顶尖模型之间的性能差异。

更新于 2026年4月22日·2,543 次浏览

问题数量: 32
发布机构: 个人
评测类别: 写作和创作
评测指标: 人工评估
支持语言: 英文
难度等级: 中等难度

简介

用顶尖大模型来判断大模型创意写作方面的评测基准

相关资源

Creative Writing评测最新大模型排名与完整榜单数据

查看 Creative Writing 的最新得分、模型模式、发布时间与参数规模，快速了解当前完整榜单表现。

数据来源：DataLearnerAI

数据优先来自官方发布（GitHub、Hugging Face、论文），其次为评测基准官方结果，最后为第三方评测机构数据。了解数据收集方法

模型模式说明

许可证:

来源:

模型发布时间截止:

排名	模型				开源情况
	Kimi K2 常规模式	88.10	2025-07-11	10000亿	免费商用
	OpenAI o3 常规模式	87.65	2025-04-16	未知	闭源
	Qwen3-235B-A22B-2507 常规模式	87.50	2025-07-21	2350亿	免费商用
4	DeepSeek-R1-0528 开启思考	86.25	2025-05-28	6710亿	免费商用
5	Qwen3-235B-A22B-Thinking-2507 开启思考	86.10	2025-07-25	2350亿	免费商用
6	Qwen3-235B-A22B-Thinking 开启思考	86.10	2025-07-30	305亿	免费商用
7	Qwen3-30B-A3B-2507 常规模式	86.00	2025-07-29	305亿	免费商用
8	Gemini 2.5-Pro 常规模式	85.85	2025-06-05	未知	闭源
9	Qwen3-Next 常规模式	85.30	2025-09-11	800亿	免费商用
10	GPT-4o(2025-03-27) 常规模式	84.90	2025-03-27	未知	闭源
11	DeepSeek-R1 常规模式	84.60	2025-01-20	6710亿	免费商用
12	Qwen3-235B-A22B 开启思考	84.60	2025-04-28	2350亿	免费商用
13	Claude Opus 4 常规模式	83.75	2025-05-23	未知	闭源
14	Claude Sonnet 4 常规模式	83.05	2025-05-23	未知	闭源
15	DeepSeek-V3 常规模式	81.60	2024-12-26	6810亿	免费商用
16	DeepSeek-V3-0324 常规模式	81.60	2025-03-24	6710亿	免费商用
17	Qwen3-32B 开启思考	81.00	2025-04-28	320亿	免费商用
18	Qwen3-235B-A22B 常规模式	80.40	2025-04-28	2350亿	免费商用
19	Qwen3-32B 常规模式	78.30	2025-04-28	320亿	免费商用
20	Claude 3.5 Sonnet New 常规模式	78.15	2024-10-22	未知	闭源
21	Qwen3-8B 开启思考	75.00	2025-04-28	80亿	免费商用
22	Qwen3-30B-A3B 常规模式	68.10	2025-04-28	305亿	免费商用
23	Qwen3-8B 常规模式	64.50	2025-04-28	80亿	免费商用