SWE-Lancer：OpenAI发布的一个全新大模型评测基准，用来测试大模型解决真实世界软件工程的能力 | DataLearnerAI

SWE-Lancer：OpenAI发布的一个全新大模型评测基准，用来测试大模型解决真实世界软件工程的能力 | DataLearnerAI

评测类型	任务数量	任务价值 (USD)	任务描述
IC SWE (Diamond)	237	236,300	个体贡献者软件工程任务，包括修复漏洞、实现新功能等，使用端到端测试进行评估。公开的评估集部分。
IC SWE (Full)	764	414,775	个体贡献者软件工程任务，包括修复漏洞、实现新功能等，使用端到端测试进行评估。全量评估集部分。
SWE Manager (Diamond)	265	264,500	软件工程管理任务，模型需要选择最佳的解决方案，评估基于原始雇佣的工程经理的选择。公开的评估集部分。
SWE Manager (Full)	724	585,225	软件工程管理任务，模型需要选择最佳的解决方案，评估基于原始雇佣的工程经理的选择。全量评估集部分。

Model	User Tool	Dataset	Reasoning Effort	pass@1	Dollars Earned / Total	Earn Rate
GPT-4o	Yes	IC SWE (Diamond)	N/A	8.0%	$14k / $236k	6.0%
o1	Yes	IC SWE (Diamond)	Low	9.3%	$16k / $236k	6.8%
o1	Yes	IC SWE (Diamond)	Medium	15.6%	$24k / $236k	9.9%
o1	Yes	IC SWE (Diamond)	High	16.5%	$29k / $236k	12.1%

SWE-Lancer优势	详情描述
真实世界的任务与经济价值	任务均来自真实的自由职业平台Upwork，涵盖了各种难度和类型的软件工程任务，每个任务都附带了实际支付给自由职业工程师的金额，从而为模型的表现提供了一个市场驱动的难度梯度。
端到端测试的引入	是第一个使用由专业工程师创建的端到端测试的基准，相比仅依赖单元测试，这些测试更全面、更能反映真实世界，且经过三轮验证以确保质量和公正性。
多样化的任务类型	任务涵盖了应用逻辑、用户界面/用户体验开发等多个类别，其中应用逻辑任务占了大部分，涉及前端事件处理、DOM交互等核心全栈概念，还有相当比例的任务涉及用户界面和用户体验的开发。
高难度与高价值	任务难度较高，平均解决时间长达26天，涉及多个文件和代码行的修改。这些任务的经济价值也相当可观，35%的任务价值超过1000美元，34%的任务价值在500到1000美元之间。
数据收集与验证的严谨性	100名专业软件工程师参与了任务的审查和验证，确保每个任务都清晰、具体且可执行。对于高价值任务，经验丰富的工程师团队进行了多轮验证，确保环境配置正确、测试覆盖全面。
管理任务的引入	不仅包括了独立的编码任务，还涉及到了管理决策，如在多个技术提案中选择最佳方案，这使得模型需要具备更强的决策能力和对整个技术栈的理解。