LiveBench:一种抗污染的大型语言模型基准测试
LiveBench是一个针对大型语言模型(LLM)的基准测试框架。该框架通过每月更新基于近期来源的问题集来评估模型性能。问题集涵盖数学、编码、推理、语言理解、指令遵循和数据分析等类别。LiveBench采用自动评分机制,确保评估基于客观事实而非主观判断。基准测试的总问题数量约为1000个,每月替换约1/6的问题,以维持测试的有效性。

关于LiveBench的大模型评测结果可以参考DataLearnerAI的大模型LiveBench评测排行榜:https://www.datalearner.com/benchmarks/livebench
LLM评测面临的挑战
当前LLM评测基准存在多项问题。首先,测试集污染现象普遍,即基准测试数据进入模型训练集,导致性能分数虚高。例如,某些模型在训练截止日期后对特定基准的分数显著下降。其次,依赖LLM作为评判者的动态基准引入偏差,如模型偏好自身输出、冗长响应或在复杂问题上出错。此外,人类众包评估面临格式偏见、输出变异性和高劳动成本,尤其在数学或编码任务中。静态基准如MMLU或Big-Bench Hard易受污染影响,而动态方法如AlpacaEval或Arena-Hard则受评判偏差制约。这些问题使评测结果难以反映模型真实能力。
LiveBench的背景与目标
LiveBench由Abacus.AI、纽约大学、Nvidia、马里兰大学、南加州大学和哥伦比亚大学的研究人员共同开发。项目于2024年6月在arXiv上发布预印本(arXiv:2406.19314),并于2025年被ICLR会议选为聚光灯论文。基准测试的开源仓库位于GitHub(LiveBench/LiveBench),采用Apache 2.0许可。
LiveBench旨在解决现有基准的污染和偏差问题。它通过引入近期来源的问题(如2024年数学竞赛、arXiv论文和新闻文章)来防止测试数据泄露。同时,框架避免使用LLM或人类评判,转而依赖可验证的客观标准,以提供可靠的模型比较。目标是创建动态、可扩展的评估工具,支持社区贡献并适应LLM的持续进步。
LiveBench的设计与评估机制
LiveBench分为六个类别,共18个任务,总问题数约1000个。问题来源包括近期数学竞赛(如AMC 2023和AIME 2024)、arXiv摘要、Guardian新闻文章、Kaggle数据集,以及对现有基准(如Big-Bench Hard和IFEval)的强化版本。每个任务包含40至100个问题,提示采用零样本链式思考格式,要求模型输出可解析的结构(如XML标签或粗体标记)。
每月更新流程包括:替换最旧或最易的问题,生成新问题(如通过脚本自动化数据分析任务),并延迟公开1/6私有问题一个月以防污染。评估方法基于自动脚本,使用客观ground truth进行评分,无需外部评判者。具体机制如下:
- 数学类别(3任务,232问题):竞赛问题使用精确匹配或SymPy等价检查;奥林匹克证明通过编辑距离评估重排序。
- 编码类别(2任务,128问题):生成任务采用pass@1执行测试用例;补全任务评估部分代码的正确性。
- 推理类别(3任务,150问题):逻辑谜题如Web of Lies v2通过布尔值匹配;空间推理使用手绘形状的推导验证。
- 语言理解类别(3任务,140问题):拼字纠错采用Levenshtein距离;情节重排计算句子顺序相似度。
- 指令遵循类别(4任务,200问题):多指令任务(如改写新闻文章)检查每个指令的遵守率。
- 数据分析类别(3任务,150问题):表格重格式化使用精确内容匹配;列连接计算F1分数。
这些机制确保评估聚焦于核心技能,而非输出格式。开源代码和模型输出可在GitHub获取,支持社区扩展。
主流模型在LiveBench上的性能概览
LiveBench评估了40余个模型,包括闭源模型如OpenAI的o1系列、Anthropic的Claude系列和Google的Gemini系列,以及开源模型如Meta的Llama-3.1和Alibaba的Qwen系列。评估采用单轮交互、温度为0的设置。截至2025年中期更新,顶级模型整体分数围绕64%,反映基准的挑战性。以下表格列出部分主流模型在各类别和整体的表现(基于2025年4月刷新数据,百分比为准确率):
| 模型名称 | 整体分数 | 编码 | 数据分析 | 指令遵循 | 语言理解 | 数学 | 推理 |
|---|---|---|---|---|---|---|---|
| Qwen 3 Next 80B A3B Thinking | 64.57 | 91.25 | 60.66 | 72.8 | 43.2 | 40.5 | 52.8 |
| Gemini 2.5 Flash (Max Thinking) | 64.35 | 78.86 | 66.03 | 80.1 | 40.0 | 62.8 | 45.8 |
| o1-preview-2024-09-12 | 64.7 | 50.8 | 64.0 | 74.6 | 68.7 | 62.9 | 67.4 |
| Claude 3.5 Sonnet-20241022 | 58.5 | 67.1 | 52.8 | 69.3 | 53.8 | 51.3 | 56.7 |
| Llama 3.1 405B Instruct | 51.1 | 43.8 | 53.5 | 72.8 | 43.2 | 40.5 | 52.8 |
| GPT-4o-2024-08-06 | 53.8 | 51.4 | 52.9 | 68.6 | 47.6 | 48.2 | 53.9 |
分析显示,数学、编码和推理类别间相关性高(Pearson系数0.70-0.95),而指令遵循相关性较低(0.82)。o1-preview在数据分析和语言任务中领先,Claude 3.5 Sonnet在编码中表现突出。开源模型如Llama 3.1 405B接近闭源中游水平,小型模型如Phi-3.5(6.6B参数)在推理中超越某些更大模型。更新后分数下降约1.2%,但模型排名相关性保持>0.997。与Arena-Hard的相关性为0.88,表明LiveBench捕捉类似趋势但减少评判偏差。
LiveBench的意义与展望
LiveBench通过抗污染设计和客观评估机制,为LLM提供了一个可持续的评测平台。它强调多样化任务和社区参与,支持每月更新以适应模型迭代。尽管限于英语任务和可验证领域,框架的开源性质促进扩展,如添加新类别或提示优化。未来,LiveBench可继续作为模型比较的标准工具,推动LLM在实际应用中的可靠发展。
关于LiveBench的大模型评测结果可以参考DataLearnerAI的大模型LiveBench评测排行榜:https://www.datalearner.com/benchmarks/livebench