LiveBench:一种抗污染的大型语言模型基准测试

LiveBench是一个针对大型语言模型(LLM)的基准测试框架。该框架通过每月更新基于近期来源的问题集来评估模型性能。问题集涵盖数学、编码、推理、语言理解、指令遵循和数据分析等类别。LiveBench采用自动评分机制,确保评估基于客观事实而非主观判断。基准测试的总问题数量约为1000个,每月替换约1/6的问题,以维持测试的有效性。


关于LiveBench的大模型评测结果可以参考DataLearnerAI的大模型LiveBench评测排行榜:https://www.datalearner.com/benchmarks/livebench

[TOC]

LLM评测面临的挑战

当前LLM评测基准存在多项问题。首先,测试集污染现象普遍,即基准测试数据进入模型训练集,导致性能分数虚高。例如,某些模型在训练截止日期后对特定基准的分数显著下降。其次,依赖LLM作为评判者的动态基准引入偏差,如模型偏好自身输出、冗长响应或在复杂问题上出错。此外,人类众包评估面临格式偏见、输出变异性和高劳动成本,尤其在数学或编码任务中。静态基准如MMLU或Big-Bench Hard易受污染影响,而动态方法如AlpacaEval或Arena-Hard则受评判偏差制约。这些问题使评测结果难以反映模型真实能力。

LiveBench的背景与目标

LiveBench由Abacus.AI、纽约大学、Nvidia、马里兰大学、南加州大学和哥伦比亚大学的研究人员共同开发。项目于2024年6月在arXiv上发布预印本(arXiv:2406.19314),并于2025年被ICLR会议选为聚光灯论文。基准测试的开源仓库位于GitHub(LiveBench/LiveBench),采用Apache 2.0许可。

LiveBench旨在解决现有基准的污染和偏差问题。它通过引入近期来源的问题(如2024年数学竞赛、arXiv论文和新闻文章)来防止测试数据泄露。同时,框架避免使用LLM或人类评判,转而依赖可验证的客观标准,以提供可靠的模型比较。目标是创建动态、可扩展的评估工具,支持社区贡献并适应LLM的持续进步。

LiveBench的设计与评估机制

LiveBench分为六个类别,共18个任务,总问题数约1000个。问题来源包括近期数学竞赛(如AMC 2023和AIME 2024)、arXiv摘要、Guardian新闻文章、Kaggle数据集,以及对现有基准(如Big-Bench Hard和IFEval)的强化版本。每个任务包含40至100个问题,提示采用零样本链式思考格式,要求模型输出可解析的结构(如XML标签或粗体标记)。

每月更新流程包括:替换最旧或最易的问题,生成新问题(如通过脚本自动化数据分析任务),并延迟公开1/6私有问题一个月以防污染。评估方法基于自动脚本,使用客观ground truth进行评分,无需外部评判者。具体机制如下:

  • 数学类别(3任务,232问题):竞赛问题使用精确匹配或SymPy等价检查;奥林匹克证明通过编辑距离评估重排序。
  • 编码类别(2任务,128问题):生成任务采用pass@1执行测试用例;补全任务评估部分代码的正确性。
  • 推理类别(3任务,150问题):逻辑谜题如Web of Lies v2通过布尔值匹配;空间推理使用手绘形状的推导验证。
  • 语言理解类别(3任务,140问题):拼字纠错采用Levenshtein距离;情节重排计算句子顺序相似度。
  • 指令遵循类别(4任务,200问题):多指令任务(如改写新闻文章)检查每个指令的遵守率。
  • 数据分析类别(3任务,150问题):表格重格式化使用精确内容匹配;列连接计算F1分数。

这些机制确保评估聚焦于核心技能,而非输出格式。开源代码和模型输出可在GitHub获取,支持社区扩展。

主流模型在LiveBench上的性能概览

LiveBench评估了40余个模型,包括闭源模型如OpenAI的o1系列、Anthropic的Claude系列和Google的Gemini系列,以及开源模型如Meta的Llama-3.1和Alibaba的Qwen系列。评估采用单轮交互、温度为0的设置。截至2025年中期更新,顶级模型整体分数围绕64%,反映基准的挑战性。以下表格列出部分主流模型在各类别和整体的表现(基于2025年4月刷新数据,百分比为准确率):

模型名称 整体分数 编码 数据分析 指令遵循 语言理解 数学 推理
Qwen 3 Next 80B A3B Thinking 64.57 91.25 60.66 72.8 43.2 40.5 52.8
Gemini 2.5 Flash (Max Thinking) 64.35 78.86 66.03 80.1 40.0 62.8 45.8
o1-preview-2024-09-12 64.7 50.8 64.0 74.6 68.7 62.9 67.4
Claude 3.5 Sonnet-20241022 58.5 67.1 52.8 69.3 53.8 51.3 56.7
Llama 3.1 405B Instruct 51.1 43.8 53.5 72.8 43.2 40.5 52.8
GPT-4o-2024-08-06 53.8 51.4 52.9 68.6 47.6 48.2 53.9

分析显示,数学、编码和推理类别间相关性高(Pearson系数0.70-0.95),而指令遵循相关性较低(0.82)。o1-preview在数据分析和语言任务中领先,Claude 3.5 Sonnet在编码中表现突出。开源模型如Llama 3.1 405B接近闭源中游水平,小型模型如Phi-3.5(6.6B参数)在推理中超越某些更大模型。更新后分数下降约1.2%,但模型排名相关性保持>0.997。与Arena-Hard的相关性为0.88,表明LiveBench捕捉类似趋势但减少评判偏差。

LiveBench的意义与展望

LiveBench通过抗污染设计和客观评估机制,为LLM提供了一个可持续的评测平台。它强调多样化任务和社区参与,支持每月更新以适应模型迭代。尽管限于英语任务和可验证领域,框架的开源性质促进扩展,如添加新类别或提示优化。未来,LiveBench可继续作为模型比较的标准工具,推动LLM在实际应用中的可靠发展。

关于LiveBench的大模型评测结果可以参考DataLearnerAI的大模型LiveBench评测排行榜:https://www.datalearner.com/benchmarks/livebench

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码