Kimi K2 0905 评测详情

Kimi K2 0905 当前已收录的代表性评测结果包括 Terminal-Bench(6 / 35,得分 44.50)、SWE-bench Verified(59 / 108,得分 69.20)、HLE(97 / 159,得分 21.70)。

评测结果

Kimi K2 0905

评测结果

思考模式

综合评估

共 1 项评测
评测名称 / 模式
得分
排名/总数
21.70
97 / 159

编程与软件工程

共 3 项评测
评测名称 / 模式
得分
排名/总数

数学推理

共 2 项评测
评测名称 / 模式
得分
排名/总数
75.20
67 / 106
7.10
13 / 16

AI Agent - 工具使用

共 2 项评测
评测名称 / 模式
得分
排名/总数
44.50
6 / 35
44.50
6 / 35