GPT-4.1 nano 评测详情

GPT-4.1 nano 当前已收录的代表性评测结果包括 MMLU(50 / 65,得分 80.10)、GPQA Diamond(154 / 179,得分 50.30)、FrontierMath(52 / 60,得分 1)。

评测结果

GPT-4.1 nano

评测结果

思考模式

综合评估

共 2 项评测
评测名称 / 模式
得分
排名/总数
80.10
50 / 65
50.30
154 / 179

数学推理

共 2 项评测
评测名称 / 模式
得分
排名/总数
29.40
56 / 62
1
52 / 60

编程与软件工程

共 1 项评测
评测名称 / 模式
得分
排名/总数

Agent能力评测

共 1 项评测
评测名称 / 模式
得分
排名/总数
Aider-Polyglot
常规模式
8.90
57 / 59