SWE-bench大模型评测基准介绍:测试大模型在真实软件工程任务中的能力
随着大语言模型(LLM)的快速发展,它们在自然语言处理(NLP)、代码生成等领域的表现已达到前所未有的高度。然而,现有的代码评测基准(如 HumanEval)通常侧重于自包含的、较短的代码生成任务,而未能充分模拟真实世界的软件开发环境。为弥补这一空白,研究者提出了一种全新的评测基准——SWE-Bench,旨在测试 LLM 在真实软件工程问题中的能力。

OpenAI在此基础上做了人工选择,形成了SWE-Bench Verified,当前大多数模型的评测都是基于这个新的评测基准进行,该评测基准的详情和大模型的得分可以参考DataLearnerAI的SWE-Bench Verified排行榜:
