本页面提供大模型代码编程能力评测排行榜,涵盖 SWE-Bench Verified、SWE-Bench Pro、LiveCodeBench、HumanEval、CodeForces、SWE-bench Multilingual 等数据集,对 GPT、Claude、Qwen、DeepSeek 等模型进行对比。
截至 2026年4月,本页覆盖 SWE-bench Verified, LiveCodeBench, HumanEval, CodeForces 等评测基准,聚焦 大模型代码编程能力评测排行榜 方向的模型对比。
点击模型名称可进入详情页查看上下文长度、许可方式与 API 价格。数据口径说明见 数据方法论。