LiveBench:一种抗污染的大型语言模型基准测试
LiveBench是一个针对大型语言模型(LLM)的基准测试框架。该框架通过每月更新基于近期来源的问题集来评估模型性能。问题集涵盖数学、编码、推理、语言理解、指令遵循和数据分析等类别。LiveBench采用自动评分机制,确保评估基于客观事实而非主观判断。基准测试的总问题数量约为1000个,每月替换约1/6的问题,以维持测试的有效性。

关于LiveBench的大模型评测结果可以参考DataLearnerAI的大模型LiveBench评测排行榜:https://www.datalearner.com/benchmarks/livebench
LLM评测面临的挑战
当前LLM评测基准存在多项问题。首先,测试集污染现象普遍,即基准测试数据进入模型训练集,导致性能分数虚高。例如,某些模型在训练截止日期后对特定基准的分数显著下降。其次,依赖LLM作为评判者的动态基准引入偏差,如模型偏好自身输出、冗长响应或在复杂问题上出错。此外,人类众包评估面临格式偏见、输出变异性和高劳动成本,尤其在数学或编码任务中。静态基准如MMLU或Big-Bench Hard易受污染影响,而动态方法如AlpacaEval或Arena-Hard则受评判偏差制约。这些问题使评测结果难以反映模型真实能力。
