如何评估大模型的创意写作能力?Creative Writing v3 评测基准介绍

Creative Writing v3 是一个用于评估大型语言模型(LLM)创意写作能力的评测基准。该基准采用混合评分系统,旨在更精确地区分不同模型,特别是顶尖模型之间的性能差异。

关于Creative Writing v3的排行榜数据可以参考DataLearnerAI的评测数据:https://www.datalearner.com/ai-models/llm-benchmark-tests/44

🎨 Creative Writing v3评测是大模型EQ-Bench情商评测中一个指标,EQ-Bench是一个专门用来评估大模型情商的评测基准,是Samuel J. Paech在2023年发布。

🎨 Creative Writing v3评测基准工作流程

🎨 Creative Writing v3评测评测基准的运作流程包含以下几个步骤:

  1. 生成内容:受评测的模型需针对32个写作提示(prompt)分别运行3次,共生成96个文本样本。生成参数设置为温度(temperature)0.7,min_p为0.1,以鼓励创作多样性。
  2. 量规评分:每个生成的文本由一个作为裁判的LLM(推荐使用Claude 3.7 Sonnet以确保与排行榜结果的可比性)根据一套全面的评分量规进行独立评分。
  3. 初始Elo评级推断:根据量规评分的总分,推断出受评测模型的初始Elo评级。
  4. 配对赛:模型将与排行榜上排名邻近的模型进行配对比较。裁判会根据多项标准,为每个标准下的胜出方授予最多5个“+”号,以体现其优势幅度。
  5. 计算Elo分数:采用Glicko评分系统计算Elo分数,该系统经过修改,会考量“+”号数量所代表的胜出幅度。
  6. 最终排名:与最终确定的邻近模型进行全面的配对赛,计算出最终的排行榜Elo分数。

2025年5月29日,该评测基准的裁判模型正在从Claude Sonnet 3.7更新为Claude Sonnet 4。

评分体系:量规评分 vs. Elo评分

该基准采用两种不同的方式对模型进行评分:

  • 量规分数(Rubric Score):裁判独立评估单个模型的输出,并依据详细的量规在多个维度上打分。所有项目的总分即为排行榜上显示的“量规分数”。
  • Elo分数(Elo Score):通过模型间的两两配对比赛(针对同一写作提示)得出。裁判在多项标准上选出更优的输出,比赛结果用于计算Elo分数。

这两种分数可能不一致,因为配对比较能让裁判更敏锐地发现细微差异,从而具有更高的区分度。此外,不同的评估方法和评分标准也会导致分数差异。两种方法各有优劣:量规评估受系统性偏见影响较小,但区分度也较低。

分数标准化

为了应对新模型加入时Elo分数整体浮动的问题,排行榜上的分数通过锚定两个参考模型进行校准:DeepSeek-R1的分数固定为1500,而ministral-3b的分数固定为200。

基准设计理念

评测创意写作并使其符合人类偏好是一项艰巨的任务。任何创意写作评估的根本局限在于裁判辨别优劣的能力,同时LLM裁判也存在多种偏见。该基准的v2版本已出现饱和现象,即裁判难以区分顶尖模型的表现。

为了解决此问题,v3版本在各方面进行了调整,以降低裁判评估的难度。新版本采用了区分度更高的配对比较和Elo排名系统。提示的设计也经过精心筛选,旨在挑战模型的弱点,从而形成更陡峭的评估梯度,以便于裁判进行评估。这些提示涵盖了语言模型通常难以写好的主题,如幽默、浪漫、空间意识和非寻常的第一人称视角。

🎨 Creative Writing v3 评测基准的运行成本

在该框架下,完整运行一次模型评测的API费用约为10美元。

🎨 Creative Writing v3 评测基准的偏见控制

该基准尝试控制以下几种在配对比较中常见的偏见:

  • 长度偏见:为保证公平,所有模型的输出文本均被截断至4000个字符。
  • 位置偏见:通过将两个模型的输出顺序颠倒后再次评估并取平均值的方式,来抵消裁判可能偏好第一或第二个位置的系统性偏见。
  • 复杂冗长偏见:评分标准中包含了对过度使用华丽词藻而对写作质量无益的惩罚项。
  • 诗意含糊偏见:针对部分模型输出过于诗意甚至近乎费解的文本,评分标准会对其进行惩罚。不过,这并非理想的解决方案,因为裁判在识别“紫薇式散文”(purple prose)等问题上仍有困难。

🎨 Creative Writing v3 评测基准未控制的偏见

  • 自我偏见:未控制裁判可能偏好自身模型输出的倾向。
  • 积极性偏见:目前尚不清楚裁判是否存在积极性偏见,也未对此进行控制。
  • 情色内容偏见:裁判倾向于严厉惩罚倾向于情色描写的模型,这可能会影响针对NSFW内容微调的模型的得分。
  • 风格与内容偏见:可能存在其他与用户个人或大众平均偏好不符的偏见。
  • 套话偏见:裁判可能偏爱LLM在RL训练中学会的某些套话或常见比喻。尽管“套话分数”会被单独衡量,但该偏见未被系统性控制。

配对赛的裁判指令

裁判在进行配对比较时,会依据以下标准评估两位“作者”的相对能力:

  • 角色真实性与深度
  • 趣味性与原创性
  • 写作质量
  • 情节、角色选择及隐喻的一致性
  • 指令遵循度
  • 世界观与氛围营造
  • 避免角色、对话和情节的陈词滥调
  • 避免华而不实的冗长表述和炫技式词汇堆砌
  • 避免滥用隐喻或过度诗意化

裁判需注意,这些能力维度是独立的,且必须为每个标准选出胜者,不允许平局。结果以“+”到“+++++”的形式表示胜出方以及其领先程度。

🎨 Creative Writing v3 评测基准基准的局限性

  • 非客观指标:分数和排名应仅被视为写作能力的粗略参考。创意写作的评估是高度主观的。
  • 非专家评判:作为裁判的Sonnet 3.7虽有不错的文学鉴赏能力,但可能无法捕捉到人类能感知到的细微之处。
  • 非角色扮演评估:该基准不评估多轮对话或典型的角色扮演能力,为RP微调的模型可能因文风更口语化而得分较低。
  • 不代表个人品味:裁判有其自身的品味和偏见,用户应通过阅读样本亲自判断。
  • 仅限英语:目前仅测试英语写作能力。

源代码

运行此基准测试和复现排行榜结果的源代码可在GitHub上获取:https://github.com/EQ-bench/creative-writing-bench

关于大模型在Creative Writing v3的排行榜数据可以参考DataLearnerAI的评测数据:https://www.datalearner.com/ai-models/llm-benchmark-tests/44

欢迎大家关注DataLearner官方微信,接受最新的AI技术推送