本页面提供大模型代码编程能力评测排行榜,涵盖 SWE-Bench、LiveCodeBench、HumanEval 等数据集,对 GPT、Claude、Qwen、DeepSeek 等模型进行对比。
所有评测基准的详细介绍可见: LLM 评测基准列表与介绍
数据来源:DataLearnerAI
数据地址:https://www.datalearner.com/leaderboards/category/code