M2.1 评测详情

M2.1 当前已收录的代表性评测结果包括 MMLU Pro(7 / 126,得分 88)、SWE-bench Verified(35 / 108,得分 74.80)、GPQA Diamond(70 / 179,得分 81)。

评测结果

M2.1

评测结果

思考模式
工具使用

综合评估

共 3 项评测
评测名称 / 模式
得分
排名/总数
88
7 / 126
81
70 / 179
22
98 / 161

编程与软件工程

共 2 项评测
评测名称 / 模式
得分
排名/总数

数学推理

共 1 项评测
评测名称 / 模式
得分
排名/总数
81
56 / 106

常识推理

共 1 项评测
评测名称 / 模式
得分
排名/总数
Simple Bench
常规模式
34.70
45 / 63

Agent能力评测

共 1 项评测
评测名称 / 模式
得分
排名/总数

指令跟随

共 1 项评测
评测名称 / 模式
得分
排名/总数
70
12 / 29

AI Agent - 信息收集

共 1 项评测
评测名称 / 模式
得分
排名/总数
47.40
38 / 46

AI Agent - 工具使用

共 1 项评测
评测名称 / 模式
得分
排名/总数
47.90
35 / 46

OpenClaw智能体能力综合测评

共 1 项评测
评测名称 / 模式
得分
排名/总数
Pinch Bench
开启思考工具
84.30
18 / 37