如何评估大模型的创意写作能力？Creative Writing v3 评测基准介绍

Creative Writing v3 是一个用于评估大型语言模型（LLM）创意写作能力的评测基准。该基准采用混合评分系统，旨在更精确地区分不同模型，特别是顶尖模型之间的性能差异。

关于Creative Writing v3的排行榜数据可以参考DataLearnerAI的评测数据：https://www.datalearner.com/ai-models/llm-benchmark-tests/44

🎨 Creative Writing v3评测是大模型EQ-Bench情商评测中一个指标，EQ-Bench是一个专门用来评估大模型情商的评测基准，是Samuel J. Paech在2023年发布。

🎨 Creative Writing v3评测基准工作流程

🎨 Creative Writing v3评测评测基准的运作流程包含以下几个步骤：

生成内容：受评测的模型需针对32个写作提示（prompt）分别运行3次，共生成96个文本样本。生成参数设置为温度（temperature）0.7，min_p为0.1，以鼓励创作多样性。
量规评分：每个生成的文本由一个作为裁判的LLM（推荐使用Claude 3.7 Sonnet以确保与排行榜结果的可比性）根据一套全面的评分量规进行独立评分。
初始Elo评级推断：根据量规评分的总分，推断出受评测模型的初始Elo评级。
配对赛：模型将与排行榜上排名邻近的模型进行配对比较。裁判会根据多项标准，为每个标准下的胜出方授予最多5个“+”号，以体现其优势幅度。
计算Elo分数：采用Glicko评分系统计算Elo分数，该系统经过修改，会考量“+”号数量所代表的胜出幅度。
最终排名：与最终确定的邻近模型进行全面的配对赛，计算出最终的排行榜Elo分数。

2025年5月29日，该评测基准的裁判模型正在从Claude Sonnet 3.7更新为Claude Sonnet 4。

该基准采用两种不同的方式对模型进行评分：

这两种分数可能不一致，因为配对比较能让裁判更敏锐地发现细微差异，从而具有更高的区分度。此外，不同的评估方法和评分标准也会导致分数差异。两种方法各有优劣：量规评估受系统性偏见影响较小，但区分度也较低。

为了应对新模型加入时Elo分数整体浮动的问题，排行榜上的分数通过锚定两个参考模型进行校准：DeepSeek-R1的分数固定为1500，而ministral-3b的分数固定为200。

评测创意写作并使其符合人类偏好是一项艰巨的任务。任何创意写作评估的根本局限在于裁判辨别优劣的能力，同时LLM裁判也存在多种偏见。该基准的v2版本已出现饱和现象，即裁判难以区分顶尖模型的表现。

为了解决此问题，v3版本在各方面进行了调整，以降低裁判评估的难度。新版本采用了区分度更高的配对比较和Elo排名系统。提示的设计也经过精心筛选，旨在挑战模型的弱点，从而形成更陡峭的评估梯度，以便于裁判进行评估。这些提示涵盖了语言模型通常难以写好的主题，如幽默、浪漫、空间意识和非寻常的第一人称视角。

在该框架下，完整运行一次模型评测的API费用约为10美元。

该基准尝试控制以下几种在配对比较中常见的偏见：

长度偏见：为保证公平，所有模型的输出文本均被截断至4000个字符。
位置偏见：通过将两个模型的输出顺序颠倒后再次评估并取平均值的方式，来抵消裁判可能偏好第一或第二个位置的系统性偏见。
复杂冗长偏见：评分标准中包含了对过度使用华丽词藻而对写作质量无益的惩罚项。
诗意含糊偏见：针对部分模型输出过于诗意甚至近乎费解的文本，评分标准会对其进行惩罚。不过，这并非理想的解决方案，因为裁判在识别“紫薇式散文”（purple prose）等问题上仍有困难。

裁判在进行配对比较时，会依据以下标准评估两位“作者”的相对能力：

裁判需注意，这些能力维度是独立的，且必须为每个标准选出胜者，不允许平局。结果以“+”到“+++++”的形式表示胜出方以及其领先程度。

运行此基准测试和复现排行榜结果的源代码可在GitHub上获取：https://github.com/EQ-bench/creative-writing-bench

关于大模型在Creative Writing v3的排行榜数据可以参考DataLearnerAI的评测数据：https://www.datalearner.com/ai-models/llm-benchmark-tests/44