GPT-5.1 Codex 评测详情

GPT-5.1 Codex 当前已收录的代表性评测结果包括 Terminal-Bench(2 / 35,得分 56.30)、LiveCodeBench(15 / 120,得分 85.50)、SWE-bench Verified(54 / 108,得分 70.40)。

评测结果

GPT-5.1 Codex

评测结果

思考模式

编程与软件工程

共 2 项评测
评测名称 / 模式
得分
排名/总数
85.50
15 / 120
70.40
54 / 108

AI Agent - 工具使用

共 1 项评测
评测名称 / 模式
得分
排名/总数
56.30
2 / 35