DataLearner 标志DataLearnerAI
最新AI资讯
大模型评测
大模型列表
大模型对比
资源中心
AI工具导航

加载中...

DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
目录
目录
  1. 首页/
  2. 博客列表/
  3. 博客详情

LiveBench:一种抗污染的大型语言模型基准测试

2025/11/09 22:06:40
246 阅读
大模型综合能力测试大模型评测大模型评测基准

LiveBench是一个针对大型语言模型(LLM)的基准测试框架。该框架通过每月更新基于近期来源的问题集来评估模型性能。问题集涵盖数学、编码、推理、语言理解、指令遵循和数据分析等类别。LiveBench采用自动评分机制,确保评估基于客观事实而非主观判断。基准测试的总问题数量约为1000个,每月替换约1/6的问题,以维持测试的有效性。

关于LiveBench的大模型评测结果可以参考DataLearnerAI的大模型LiveBench评测排行榜:https://www.datalearner.com/benchmarks/livebench

  • LLM评测面临的挑战
  • LiveBench的背景与目标
  • LiveBench的设计与评估机制
  • 主流模型在LiveBench上的性能概览
  • LiveBench的意义与展望

LLM评测面临的挑战

当前LLM评测基准存在多项问题。首先,测试集污染现象普遍,即基准测试数据进入模型训练集,导致性能分数虚高。例如,某些模型在训练截止日期后对特定基准的分数显著下降。其次,依赖LLM作为评判者的动态基准引入偏差,如模型偏好自身输出、冗长响应或在复杂问题上出错。此外,人类众包评估面临格式偏见、输出变异性和高劳动成本,尤其在数学或编码任务中。静态基准如MMLU或Big-Bench Hard易受污染影响,而动态方法如AlpacaEval或Arena-Hard则受评判偏差制约。这些问题使评测结果难以反映模型真实能力。

LiveBench的背景与目标

LiveBench由Abacus.AI、纽约大学、Nvidia、马里兰大学、南加州大学和哥伦比亚大学的研究人员共同开发。项目于2024年6月在arXiv上发布预印本(arXiv:2406.19314),并于2025年被ICLR会议选为聚光灯论文。基准测试的开源仓库位于GitHub(LiveBench/LiveBench),采用Apache 2.0许可。

LiveBench旨在解决现有基准的污染和偏差问题。它通过引入近期来源的问题(如2024年数学竞赛、arXiv论文和新闻文章)来防止测试数据泄露。同时,框架避免使用LLM或人类评判,转而依赖可验证的客观标准,以提供可靠的模型比较。目标是创建动态、可扩展的评估工具,支持社区贡献并适应LLM的持续进步。

LiveBench的设计与评估机制

LiveBench分为六个类别,共18个任务,总问题数约1000个。问题来源包括近期数学竞赛(如AMC 2023和AIME 2024)、arXiv摘要、Guardian新闻文章、Kaggle数据集,以及对现有基准(如Big-Bench Hard和IFEval)的强化版本。每个任务包含40至100个问题,提示采用零样本链式思考格式,要求模型输出可解析的结构(如XML标签或粗体标记)。

每月更新流程包括:替换最旧或最易的问题,生成新问题(如通过脚本自动化数据分析任务),并延迟公开1/6私有问题一个月以防污染。评估方法基于自动脚本,使用客观ground truth进行评分,无需外部评判者。具体机制如下:

  • 数学类别(3任务,232问题):竞赛问题使用精确匹配或SymPy等价检查;奥林匹克证明通过编辑距离评估重排序。
  • 编码类别(2任务,128问题):生成任务采用pass@1执行测试用例;补全任务评估部分代码的正确性。
  • 推理类别(3任务,150问题):逻辑谜题如Web of Lies v2通过布尔值匹配;空间推理使用手绘形状的推导验证。
  • 语言理解类别(3任务,140问题):拼字纠错采用Levenshtein距离;情节重排计算句子顺序相似度。
  • 指令遵循类别(4任务,200问题):多指令任务(如改写新闻文章)检查每个指令的遵守率。
  • 数据分析类别(3任务,150问题):表格重格式化使用精确内容匹配;列连接计算F1分数。

这些机制确保评估聚焦于核心技能,而非输出格式。开源代码和模型输出可在GitHub获取,支持社区扩展。

主流模型在LiveBench上的性能概览

LiveBench评估了40余个模型,包括闭源模型如OpenAI的o1系列、Anthropic的Claude系列和Google的Gemini系列,以及开源模型如Meta的Llama-3.1和Alibaba的Qwen系列。评估采用单轮交互、温度为0的设置。截至2025年中期更新,顶级模型整体分数围绕64%,反映基准的挑战性。以下表格列出部分主流模型在各类别和整体的表现(基于2025年4月刷新数据,百分比为准确率):

模型名称整体分数编码数据分析指令遵循语言理解数学推理
Qwen 3 Next 80B A3B Thinking64.5791.2560.6672.843.240.552.8
Gemini 2.5 Flash (Max Thinking)64.3578.8666.0380.140.062.845.8
o1-preview-2024-09-1264.750.864.074.668.762.967.4
Claude 3.5 Sonnet-2024102258.567.152.869.353.851.356.7
Llama 3.1 405B Instruct51.143.853.572.843.240.552.8
GPT-4o-2024-08-0653.851.452.968.647.648.253.9

分析显示,数学、编码和推理类别间相关性高(Pearson系数0.70-0.95),而指令遵循相关性较低(0.82)。o1-preview在数据分析和语言任务中领先,Claude 3.5 Sonnet在编码中表现突出。开源模型如Llama 3.1 405B接近闭源中游水平,小型模型如Phi-3.5(6.6B参数)在推理中超越某些更大模型。更新后分数下降约1.2%,但模型排名相关性保持>0.997。与Arena-Hard的相关性为0.88,表明LiveBench捕捉类似趋势但减少评判偏差。

LiveBench的意义与展望

LiveBench通过抗污染设计和客观评估机制,为LLM提供了一个可持续的评测平台。它强调多样化任务和社区参与,支持每月更新以适应模型迭代。尽管限于英语任务和可验证领域,框架的开源性质促进扩展,如添加新类别或提示优化。未来,LiveBench可继续作为模型比较的标准工具,推动LLM在实际应用中的可靠发展。

关于LiveBench的大模型评测结果可以参考DataLearnerAI的大模型LiveBench评测排行榜:https://www.datalearner.com/benchmarks/livebench

DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码
返回博客列表

相关博客

  • AIME 2026:基于2026年美国数学邀请赛的大模型数学能力评估基准
  • AA-LCR:大模型长上下文推理能力的权威评测基准(Artificial Analysis Long Context Reasoning)是什么?包含哪些任务?如何测试大模型超长上下文能力?
  • MMEB:多模态嵌入基准评测,用于测试多模态向量检索和排序准确性的基准
  • Context Arena:长上下文大模型评测基准介绍
  • Tool Decathlon:大模型工具使用能力基准测试
  • Terminal-Bench 评测全解析:一个用于评测大模型在终端环境使用工具能力的评测基准以及Terminal 1.0与 2.0 的完整对比
  • IMO-Bench:谷歌发布的用于大模型数学推理的鲁棒评估基准
  • BrowseComp:OpenAI发布的AI Agent网页浏览能力评估基准

热门博客

  • 1Dirichlet Distribution(狄利克雷分布)与Dirichlet Process(狄利克雷过程)
  • 2回归模型中的交互项简介(Interactions in Regression)
  • 3贝塔分布(Beta Distribution)简介及其应用
  • 4矩母函数简介(Moment-generating function)
  • 5普通最小二乘法(Ordinary Least Squares,OLS)的详细推导过程
  • 6使用R语言进行K-means聚类并分析结果
  • 7深度学习技巧之Early Stopping(早停法)
  • 8手把手教你本地部署清华大学的ChatGLM-6B模型——Windows+6GB显卡本地部署