LiveCodeBench 由加州大学伯克利分校、麻省理工学院和康奈尔大学的研究人员开发,是一个先进的评测基准套件,专门用于严格评估大语言模型 (LLMs) 在代码处理方面的能力,并解决现有基准测试的局限性。通过引入实时更新的问题集和多维度评估方法,LiveCodeBench 确保对 LLM 进行公平、全面和稳健的评估。
LiveCodeBench
LiveCodeBench 是一个动态更新的基准测试平台,通过来自顶级竞赛平台的高难度编程任务,全面评估大型语言模型在复杂编码场景中的能力。
511
UC Berkeley
代码生成
Pass @K
LiveCodeBench 由加州大学伯克利分校、麻省理工学院和康奈尔大学的研究人员开发,是一个先进的评测基准套件,专门用于严格评估大语言模型 (LLMs) 在代码处理方面的能力,并解决现有基准测试的局限性。通过引入实时更新的问题集和多维度评估方法,LiveCodeBench 确保对 LLM 进行公平、全面和稳健的评估。
模型简称 | 得分 | 发布机构 | 发布时间 | 参数规模(亿) |
---|---|---|---|---|
Grok-3 - Reasoning Beta | 79.4 |
|
2025-02-18 | 未知 |
Kimi-k1.6-IOI-high | 73.8 |
![]() |
2025-03-20 | 未知 |
OpenAI o1 | 71.0 |
![]() |
2024-12-05 | 未知 |
Qwen3-235B-A22B | 70.7 |
![]() |
2025-04-28 | 2350.0 |
Grok 3 | 70.6 |
|
2025-02-17 | 未知 |
Gemini 2.5 Pro Experimental 03-25 | 70.4 |
![]() |
2025-03-25 | 0.0 |
OpenAI o3-mini (high) | 69.5 |
![]() |
2025-01-31 | 未知 |
OpenAI o3-mini (medium) | 67.4 |
![]() |
2025-01-31 | 未知 |
Kimi-k1.6-IOI | 65.9 |
![]() |
2025-03-20 | 未知 |
DeepSeek-R1 | 65.9 |
![]() |
2025-01-20 | 6710.0 |
Qwen3-32B | 65.7 |
![]() |
2025-04-28 | 220.0 |
QwQ-Max-Preview | 65.6 |
![]() |
2025-03-20 | 未知 |
Hunyuan-T1 | 64.9 |
![]() |
2025-03-21 | 0.0 |
Gemini 2.5 Flash | 63.4 |
![]() |
2025-04-17 | 未知 |
OpenAI o1-mini | 52.0 |
![]() |
2024-09-12 | 未知 |
Qwen2.5-32B | 51.2 |
![]() |
2024-09-18 | 320.0 |
Llama 4 Behemoth Instruct | 49.4 |
![]() |
2025-04-05 | 20000.0 |
DeepSeek-V3-0324 | 49.2 |
![]() |
2025-03-24 | 6810.0 |
GPT-4.5 | 46.4 |
![]() |
2025-02-28 | 未知 |
Llama 4 Maverick Instruct | 43.4 |
![]() |
2025-04-05 | 4000.0 |
Claude 3.5 Sonnet New | 38.7 |
![]() |
2024-10-22 | 0.0 |
GPT-4o | 35.1 |
![]() |
2024-05-13 | 未知 |
DeepSeek-V3 | 34.6 |
![]() |
2024-12-26 | 6810.0 |
Llama3.3-70B-Instruct | 33.3 |
![]() |
2024-12-06 | 700.0 |
Llama3.1-70B-Instruct | 33.3 |
![]() |
2024-07-23 | 700.0 |
Llama 4 Scout Instruct | 32.8 |
![]() |
2025-04-05 | 1090.0 |
Hunyuan-TurboS | 32.0 |
![]() |
2025-03-10 | 未知 |
Llama3.1-405B Instruct | 30.2 |
![]() |
2024-07-23 | 4050.0 |
Gemma 3 - 27B (IT) | 29.7 |
![]() |
2025-03-12 | 270.0 |
Gemma 3 - 12B (IT) | 24.6 |
![]() |
2025-03-12 | 120.0 |