LiveCodeBench

LiveCodeBench

LiveCodeBench 是一个动态更新的基准测试平台,通过来自顶级竞赛平台的高难度编程任务,全面评估大型语言模型在复杂编码场景中的能力。

多语言 难度:高难度
问题数量

511

机构

UC Berkeley

类别

代码生成

评估指标

Pass @K

LiveCodeBench基准测试简介

LiveCodeBench 由加州大学伯克利分校、麻省理工学院和康奈尔大学的研究人员开发,是一个先进的评测基准套件,专门用于严格评估大语言模型 (LLMs) 在代码处理方面的能力,并解决现有基准测试的局限性。通过引入实时更新的问题集和多维度评估方法,LiveCodeBench 确保对 LLM 进行公平、全面和稳健的评估。

模型简称 得分 发布机构 发布时间 参数规模(亿)
Grok-3 - Reasoning Beta 79.4 xAI 2025-02-18 未知
Kimi-k1.6-IOI-high 73.8 Moonshot AI 2025-03-20 未知
OpenAI o1 71.0 OpenAI 2024-12-05 未知
Qwen3-235B-A22B 70.7 阿里巴巴 2025-04-28 2350.0
Grok 3 70.6 xAI 2025-02-17 未知
Gemini 2.5 Pro Experimental 03-25 70.4 Google Deep Mind 2025-03-25 0.0
OpenAI o3-mini (high) 69.5 OpenAI 2025-01-31 未知
OpenAI o3-mini (medium) 67.4 OpenAI 2025-01-31 未知
Kimi-k1.6-IOI 65.9 Moonshot AI 2025-03-20 未知
DeepSeek-R1 65.9 DeepSeek-AI 2025-01-20 6710.0
Qwen3-32B 65.7 阿里巴巴 2025-04-28 220.0
QwQ-Max-Preview 65.6 阿里巴巴 2025-03-20 未知
Hunyuan-T1 64.9 腾讯AI实验室 2025-03-21 0.0
Gemini 2.5 Flash 63.4 Google Deep Mind 2025-04-17 未知
OpenAI o1-mini 52.0 OpenAI 2024-09-12 未知
Qwen2.5-32B 51.2 阿里巴巴 2024-09-18 320.0
Llama 4 Behemoth Instruct 49.4 Facebook AI研究实验室 2025-04-05 20000.0
DeepSeek-V3-0324 49.2 DeepSeek-AI 2025-03-24 6810.0
GPT-4.5 46.4 OpenAI 2025-02-28 未知
Llama 4 Maverick Instruct 43.4 Facebook AI研究实验室 2025-04-05 4000.0
Claude 3.5 Sonnet New 38.7 Anthropic 2024-10-22 0.0
GPT-4o 35.1 OpenAI 2024-05-13 未知
DeepSeek-V3 34.6 DeepSeek-AI 2024-12-26 6810.0
Llama3.3-70B-Instruct 33.3 Facebook AI研究实验室 2024-12-06 700.0
Llama3.1-70B-Instruct 33.3 Facebook AI研究实验室 2024-07-23 700.0
Llama 4 Scout Instruct 32.8 Facebook AI研究实验室 2025-04-05 1090.0
Hunyuan-TurboS 32.0 腾讯AI实验室 2025-03-10 未知
Llama3.1-405B Instruct 30.2 Facebook AI研究实验室 2024-07-23 4050.0
Gemma 3 - 27B (IT) 29.7 Google Deep Mind 2025-03-12 270.0
Gemma 3 - 12B (IT) 24.6 Google Deep Mind 2025-03-12 120.0
得分:
79.4
发布时间:
2025-02-18
参数规模(亿):
未知
得分:
73.8
发布时间:
2025-03-20
参数规模(亿):
未知
得分:
71.0
发布时间:
2024-12-05
参数规模(亿):
未知
得分:
70.7
发布时间:
2025-04-28
参数规模(亿):
2350.0
得分:
70.6
发布时间:
2025-02-17
参数规模(亿):
未知
得分:
70.4
发布时间:
2025-03-25
参数规模(亿):
0.0
得分:
69.5
发布时间:
2025-01-31
参数规模(亿):
未知
得分:
67.4
发布时间:
2025-01-31
参数规模(亿):
未知
得分:
65.9
发布时间:
2025-03-20
参数规模(亿):
未知
得分:
65.9
发布时间:
2025-01-20
参数规模(亿):
6710.0
得分:
65.7
发布时间:
2025-04-28
参数规模(亿):
220.0
得分:
65.6
发布时间:
2025-03-20
参数规模(亿):
未知
得分:
64.9
发布时间:
2025-03-21
参数规模(亿):
0.0
得分:
63.4
发布时间:
2025-04-17
参数规模(亿):
未知
得分:
52.0
发布时间:
2024-09-12
参数规模(亿):
未知
得分:
51.2
发布时间:
2024-09-18
参数规模(亿):
320.0
得分:
49.4
发布时间:
2025-04-05
参数规模(亿):
20000.0
得分:
49.2
发布时间:
2025-03-24
参数规模(亿):
6810.0
得分:
46.4
发布时间:
2025-02-28
参数规模(亿):
未知
得分:
43.4
发布时间:
2025-04-05
参数规模(亿):
4000.0
得分:
38.7
发布时间:
2024-10-22
参数规模(亿):
0.0
得分:
35.1
发布时间:
2024-05-13
参数规模(亿):
未知
得分:
34.6
发布时间:
2024-12-26
参数规模(亿):
6810.0
得分:
33.3
发布时间:
2024-12-06
参数规模(亿):
700.0
得分:
33.3
发布时间:
2024-07-23
参数规模(亿):
700.0
得分:
32.8
发布时间:
2025-04-05
参数规模(亿):
1090.0
得分:
32.0
发布时间:
2025-03-10
参数规模(亿):
未知
得分:
30.2
发布时间:
2024-07-23
参数规模(亿):
4050.0
得分:
29.7
发布时间:
2025-03-12
参数规模(亿):
270.0
得分:
24.6
发布时间:
2025-03-12
参数规模(亿):
120.0