DataLearner 标志DataLearnerAI
AI技术博客
大模型评测排行
大模型评测基准
AI大模型大全
AI资源仓库
AI工具导航

加载中...

DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
  1. 首页/
  2. 博客列表/
  3. 博客详情

Arena Hard:LM-SYS推出的更难更有区分度的大模型评测基准

2025/01/30 20:38:31
951 阅读
ArenaHardChatbotArena大模型评测评测基准

评估日益发展的大型语言模型(LLM)是一个复杂的任务。传统的基准测试往往难以跟上技术的快速进步,容易过时且无法捕捉到现实应用中的细微差异。为此,LM-SYS研究人员提出了一个全新的大模型评测基准——Arena Hard。这个平常基准是基于Chatbot Arena发展而来,相比较常规的评测基准,它更难也更全面。

  • 什么是Arena Hard
  • 传统的基准测试存在几个主要缺点
  • Arena Hard的工作原理
  • Arena Hard的主要特点
  • Arena Hard和其它评测基准的对比

什么是Arena Hard

Arena Hard不仅仅是另一个静态测试;它是一个复杂的数据管道,利用来自Chatbot Arena(一个受欢迎的众包LLM评估平台)的实时数据构建高质量的基准。这个创新的方法确保了基准测试始终保持最新,反映了现实中的用户互动,避免了测试集泄漏的问题。目前,基准测试的版本是Arena-Hard-Auto v0.1,包括500个直接来自Chatbot Arena的挑战性用户提问。

传统的基准测试存在几个主要缺点

传统的大模型评测基准,如MMLU等,其实已经无法有效区分大模型的能力了。2023年3月份,GPT-4在MMLU获得了86.4分之后,大模型在这个评测基准上的得分非常有限,一部分是因为这个评测本身包含了一些错误,一部分也是因为评测基准本身不够复杂,无法区分强的大模型的能力。

传统的这些基准测试主要的问题可以总结如下:

  • 静态问题集:固定的数据集可能导致模型只针对基准本身进行优化,而非真正的改进。
  • 缺乏现实相关性:许多基准使用人工任务或选择题格式,这些并不反映实际的LLM使用场景。
  • 区分度差:随着模型越来越复杂,传统的基准测试常常无法有效区分它们的表现。

Arena Hard的出现,正是为了应对这些具体问题,提供一种更为相关、可靠且动态的评估方法。

Arena Hard的工作原理

LM-SYS是一个多个高校研究人员组成的大模型研究机构,此前,该机构最著名的是推出了大模型匿名竞技场,即Chatbot Arena,让普通人使用这个平台对大模型提问,然后不同的匿名模型同时返回答案,用户投票选择谁更好的方式来做大模型评测。

关于LM-SYS具体的问题介绍:https://www.datalearner.com/ai-organizations/LM-SYS

Arena-Hard 的数据来源于 Chatbot Arena。Chatbot Arena 收集了超过 200,000 条用户查询,Arena-Hard 从这些数据中自动提取高质量的提示(prompts),以确保评测基准的多样性和质量。

而Arena Hard是他们最新的成果,简单总结如下: 首先用主题模型和大模型从众包问题中提取不同类型的问题,大约有4000个,然后从中筛选250个高质量主题,每个主题下再随机抽取2个历史用户的提示词,组成包含了500个提示词的评测集。

评测新模型的时候,让新模型回答这个评测集,再将答案与基准模型(GPT-4)答案对比,用更强的模型对比新模型和基准模型,获得最终的分数。

Arena Hard的主要特点
  • 实时数据驱动:利用实际用户互动生成相关且具有挑战性的提问。
  • 自动化评估:使用GPT-4-Turbo作为自动评判工具,比对模型的回答,减少人工评估的需求。
  • 高可分离性:有效区分不同模型的表现。
  • 与人类偏好高度一致:与用户在Chatbot Arena上表达的偏好高度契合。
  • 成本高效且快速:自动化评估使得评估过程比传统方法更快捷、更经济。
  • 定期更新:定期刷新,确保基准测试的相关性,并防止过拟合。

Arena Hard和其它评测基准的对比

LM-SYS官网对Arena Hard和一些评测基准做了对比,发现Arena Hard对于模型有更好的区分度。

下表是对比结果:

MetricChatbot Arena (English-only)MT-benchAlpacaEval 2.0 LC (Length Controlled)Arena-Hard-Auto-v0.1
每个模型评测的prompt数量10,000+1608001,000
Agreement to Chatbot Arena with 95% CIN/A26.1%81.2%89.1%
可区分性N/A91.3%90.8%94.1%
Separability with 95% CI85.8%22.6%83.2%87.4%
是否是现实问题YesMixedMixedYes
数据的更新情况LiveStaticStaticFrequent Updates
每个模型的评测成本Very High$10$10$25
模型评价的方法HumanLLMLLMLLM

同时,LM-SYS也给出了Arena Hard对不同模型的评测结果:

DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码
返回博客列表

相关博客

  • MMEB:多模态嵌入基准评测,用于测试多模态向量检索和排序准确性的基准
  • Context Arena:长上下文大模型评测基准介绍
  • Tool Decathlon:大模型工具使用能力基准测试
  • Terminal-Bench 评测全解析:一个用于评测大模型在终端环境使用工具能力的评测基准以及Terminal 1.0与 2.0 的完整对比
  • IMO-Bench:谷歌发布的用于大模型数学推理的鲁棒评估基准
  • LiveBench:一种抗污染的大型语言模型基准测试
  • BrowseComp:OpenAI发布的AI Agent网页浏览能力评估基准
  • IFBench:大模型指令跟随能力评测基准详解

热门博客

  • 1Dirichlet Distribution(狄利克雷分布)与Dirichlet Process(狄利克雷过程)
  • 2回归模型中的交互项简介(Interactions in Regression)
  • 3贝塔分布(Beta Distribution)简介及其应用
  • 4矩母函数简介(Moment-generating function)
  • 5普通最小二乘法(Ordinary Least Squares,OLS)的详细推导过程
  • 6使用R语言进行K-means聚类并分析结果
  • 7深度学习技巧之Early Stopping(早停法)
  • 8H5文件简介和使用