Arena Hard：LM-SYS推出的更难更有区分度的大模型评测基准

评估日益发展的大型语言模型（LLM）是一个复杂的任务。传统的基准测试往往难以跟上技术的快速进步，容易过时且无法捕捉到现实应用中的细微差异。为此，LM-SYS研究人员提出了一个全新的大模型评测基准——Arena Hard。这个平常基准是基于Chatbot Arena发展而来，相比较常规的评测基准，它更难也更全面。

Metric	Chatbot Arena (English-only)	MT-bench	AlpacaEval 2.0 LC (Length Controlled)	Arena-Hard-Auto-v0.1
每个模型评测的prompt数量	10,000+	160	800	1,000
Agreement to Chatbot Arena with 95% CI	N/A	26.1%	81.2%	89.1%
可区分性	N/A	91.3%	90.8%	94.1%
Separability with 95% CI	85.8%	22.6%	83.2%	87.4%
是否是现实问题	Yes	Mixed	Mixed	Yes
数据的更新情况	Live

Arena Hard：LM-SYS推出的更难更有区分度的大模型评测基准

DataLearner 官方微信

什么是Arena Hard

传统的基准测试存在几个主要缺点

Arena Hard的工作原理

Arena Hard的主要特点

Arena Hard和其它评测基准的对比

热门博客