LiveCodeBench：全面的 LLM 代码评测基准基准

LiveCodeBench 由加州大学伯克利分校、麻省理工学院和康奈尔大学的研究人员开发，是一个先进的评测基准套件，专门用于严格评估大语言模型 (LLMs) 在代码处理方面的能力，并解决现有基准测试的局限性。通过引入实时更新的问题集和多维度评估方法，LiveCodeBench 确保对 LLM 进行公平、全面和稳健的评估。本文主要详细介绍LiveCodeBench的评测信息。

关于大模型在LiveCodeBench上的详细评测结果，可以参考DataLearnerAI的大模型评测LiveCodeBench排行榜：https://www.datalearner.com/ai-models/llm-benchmark-tests/40

该基准面向学术研究和工业应用，提供标准化的方法来比较 LLM 在不同编码任务中的表现。其数据集、评测方法和框架均为开放资源，以促进 AI 代码生成技术的持续进步。

目前，LLMs 在代码生成及相关应用方面取得了重大突破。然而，现有的评测基准（如 HumanEval 和 MBPP）存在诸多局限性，例如数据污染风险、评测范围过于狭窄，仅关注自然语言到代码的转换。LiveCodeBench 旨在弥补这些不足，提供一个全面且无污染的评测框架。该基准从 LeetCode、AtCoder 和 CodeForces 等竞赛平台动态收集真实世界的代码问题，以防止数据泄漏对评测结果产生影响。

平台	总题目数	简单	中等	困难	平均测试数
LiveCodeBench (2024 年 5 月)	511	182	206	123	17.0
LiveCodeBench (2023 年 9 月 - 2024 年 5 月)	349	125	136	88	18.0
AtCoder	267	99	91	77	15.6
LeetCode

模型类型	代表模型	代码生成 (Pass@1)	自修复	代码执行	测试输出预测
闭源 API	GPT-4-Turbo, Claude-3-Opus	最佳	最佳	最佳	最佳
开源 (大型)	L3-Ins-70B, Mixtral, DS-Ins-33B	接近 API 模型	高	高	高
开源 (中型)	CodeLLaMa, StarCoder2	中等	中等	中等	中等

LiveCodeBench：全面的 LLM 代码评测基准基准

DataLearner WeChat

1. 无污染的评测机制

2. 多维度代码能力评估

3. 高质量、多样化的问题集

数据集构成

模型性能分析

LiveCodeBench论文中的一些关键结论

代码评测中的数据污染问题

为什么需要更全面的评测？

HumanEval 是否导致 LLM 过拟合？

开源模型是否能赶超闭源模型？

总结

Hot Blogs