SWE Manager Lancer(Diamond)

SWE Manager-Lancer(Diamond)

OpenAI开源的评测大模型解决软件工程管理任务能力的评测基准

英文 难度:高难度
问题数量

265

机构

OpenAI

类别

代码生成

评估指标

Pass @K

SWE Manager Lancer(Diamond)基准测试简介

模型简称 得分 发布机构 发布时间 参数规模(亿)
GPT-4.1 35.1 OpenAI 2025-04-14 未知
得分:
35.1
发布时间:
2025-04-14
参数规模(亿):
未知