LiveBench：一种抗污染的大型语言模型基准测试

LiveBench是一个针对大型语言模型（LLM）的基准测试框架。该框架通过每月更新基于近期来源的问题集来评估模型性能。问题集涵盖数学、编码、推理、语言理解、指令遵循和数据分析等类别。LiveBench采用自动评分机制，确保评估基于客观事实而非主观判断。基准测试的总问题数量约为1000个，每月替换约1/6的问题，以维持测试的有效性。

关于LiveBench的大模型评测结果可以参考DataLearnerAI的大模型LiveBench评测排行榜：https://www.datalearner.com/benchmarks/livebench

LLM评测面临的挑战

当前LLM评测基准存在多项问题。首先，测试集污染现象普遍，即基准测试数据进入模型训练集，导致性能分数虚高。例如，某些模型在训练截止日期后对特定基准的分数显著下降。其次，依赖LLM作为评判者的动态基准引入偏差，如模型偏好自身输出、冗长响应或在复杂问题上出错。此外，人类众包评估面临格式偏见、输出变异性和高劳动成本，尤其在数学或编码任务中。静态基准如MMLU或Big-Bench Hard易受污染影响，而动态方法如AlpacaEval或Arena-Hard则受评判偏差制约。这些问题使评测结果难以反映模型真实能力。

LiveBench的背景与目标

LiveBench由Abacus.AI、纽约大学、Nvidia、马里兰大学、南加州大学和哥伦比亚大学的研究人员共同开发。项目于2024年6月在arXiv上发布预印本（arXiv:2406.19314），并于2025年被ICLR会议选为聚光灯论文。基准测试的开源仓库位于GitHub（LiveBench/LiveBench），采用Apache 2.0许可。

LiveBench旨在解决现有基准的污染和偏差问题。它通过引入近期来源的问题（如2024年数学竞赛、arXiv论文和新闻文章）来防止测试数据泄露。同时，框架避免使用LLM或人类评判，转而依赖可验证的客观标准，以提供可靠的模型比较。目标是创建动态、可扩展的评估工具，支持社区贡献并适应LLM的持续进步。

LiveBench的设计与评估机制

LiveBench分为六个类别，共18个任务，总问题数约1000个。问题来源包括近期数学竞赛（如AMC 2023和AIME 2024）、arXiv摘要、Guardian新闻文章、Kaggle数据集，以及对现有基准（如Big-Bench Hard和IFEval）的强化版本。每个任务包含40至100个问题，提示采用零样本链式思考格式，要求模型输出可解析的结构（如XML标签或粗体标记）。

每月更新流程包括：替换最旧或最易的问题，生成新问题（如通过脚本自动化数据分析任务），并延迟公开1/6私有问题一个月以防污染。评估方法基于自动脚本，使用客观ground truth进行评分，无需外部评判者。具体机制如下：

数学类别（3任务，232问题）：竞赛问题使用精确匹配或SymPy等价检查；奥林匹克证明通过编辑距离评估重排序。
编码类别（2任务，128问题）：生成任务采用pass@1执行测试用例；补全任务评估部分代码的正确性。
推理类别（3任务，150问题）：逻辑谜题如Web of Lies v2通过布尔值匹配；空间推理使用手绘形状的推导验证。
语言理解类别（3任务，140问题）：拼字纠错采用Levenshtein距离；情节重排计算句子顺序相似度。
指令遵循类别（4任务，200问题）：多指令任务（如改写新闻文章）检查每个指令的遵守率。
数据分析类别（3任务，150问题）：表格重格式化使用精确内容匹配；列连接计算F1分数。

这些机制确保评估聚焦于核心技能，而非输出格式。开源代码和模型输出可在GitHub获取，支持社区扩展。

主流模型在LiveBench上的性能概览

LiveBench评估了40余个模型，包括闭源模型如OpenAI的o1系列、Anthropic的Claude系列和Google的Gemini系列，以及开源模型如Meta的Llama-3.1和Alibaba的Qwen系列。评估采用单轮交互、温度为0的设置。截至2025年中期更新，顶级模型整体分数围绕64%，反映基准的挑战性。以下表格列出部分主流模型在各类别和整体的表现（基于2025年4月刷新数据，百分比为准确率）：

模型名称	整体分数	编码	数据分析	指令遵循	语言理解	数学	推理
Qwen 3 Next 80B A3B Thinking	64.57	91.25	60.66	72.8	43.2	40.5	52.8
Gemini 2.5 Flash (Max Thinking)	64.35	78.86	66.03	80.1	40.0	62.8	45.8
o1-preview-2024-09-12	64.7	50.8	64.0	74.6	68.7	62.9	67.4
Claude 3.5 Sonnet-20241022	58.5	67.1	52.8	69.3	53.8	51.3	56.7
Llama 3.1 405B Instruct	51.1	43.8	53.5	72.8	43.2	40.5	52.8
GPT-4o-2024-08-06	53.8	51.4	52.9	68.6	47.6	48.2	53.9

分析显示，数学、编码和推理类别间相关性高（Pearson系数0.70-0.95），而指令遵循相关性较低（0.82）。o1-preview在数据分析和语言任务中领先，Claude 3.5 Sonnet在编码中表现突出。开源模型如Llama 3.1 405B接近闭源中游水平，小型模型如Phi-3.5（6.6B参数）在推理中超越某些更大模型。更新后分数下降约1.2%，但模型排名相关性保持>0.997。与Arena-Hard的相关性为0.88，表明LiveBench捕捉类似趋势但减少评判偏差。

LiveBench的意义与展望

LiveBench通过抗污染设计和客观评估机制，为LLM提供了一个可持续的评测平台。它强调多样化任务和社区参与，支持每月更新以适应模型迭代。尽管限于英语任务和可验证领域，框架的开源性质促进扩展，如添加新类别或提示优化。未来，LiveBench可继续作为模型比较的标准工具，推动LLM在实际应用中的可靠发展。