Arena Hard:LM-SYS推出的更难更有区分度的大模型评测基准
评估日益发展的大型语言模型(LLM)是一个复杂的任务。传统的基准测试往往难以跟上技术的快速进步,容易过时且无法捕捉到现实应用中的细微差异。为此,LM-SYS研究人员提出了一个全新的大模型评测基准——Arena Hard。这个平常基准是基于Chatbot Arena发展而来,相比较常规的评测基准,它更难也更全面。
什么是Arena Hard
Arena Hard不仅仅是另一个静态测试;它是一个复杂的数据管道,利用来自Chatbot Arena(一个受欢迎的众包LLM评估平台)的实时数据构建高质量的基准。这个创新的方法确保了基准测试始终保持最新,反映了现实中的用户互动,避免了测试集泄漏的问题。目前,基准测试的版本是Arena-Hard-Auto v0.1,包括500个直接来自Chatbot Arena的挑战性用户提问。
传统的基准测试存在几个主要缺点
传统的大模型评测基准,如MMLU等,其实已经无法有效区分大模型的能力了。2023年3月份,GPT-4在MMLU获得了86.4分之后,大模型在这个评测基准上的得分非常有限,一部分是因为这个评测本身包含了一些错误,一部分也是因为评测基准本身不够复杂,无法区分强的大模型的能力。
传统的这些基准测试主要的问题可以总结如下:
- 静态问题集:固定的数据集可能导致模型只针对基准本身进行优化,而非真正的改进。
- 缺乏现实相关性:许多基准使用人工任务或选择题格式,这些并不反映实际的LLM使用场景。
- 区分度差:随着模型越来越复杂,传统的基准测试常常无法有效区分它们的表现。

