Gemini 2.5 Pro Experimental 03-25 评测详情

Gemini 2.5 Pro Experimental 03-25 当前已收录的代表性评测结果包括 AIME 2024（9 / 62，得分 92）、Aider-Polyglot（12 / 59，得分 72.90）、SimpleQA（12 / 45，得分 52.90）。

评测结果

Gemini 2.5 Pro Experimental 03-25

评测结果

综合评估

共 2 项评测

评测名称 / 模式

得分

排名/总数

84

55 / 179

18.80

110 / 159

常识问答

共 1 项评测

评测名称 / 模式

得分

排名/总数

52.90

12 / 45

编程与软件工程

共 2 项评测

评测名称 / 模式

得分

排名/总数

70.40

53 / 120

SWE-bench Verified

63.80

72 / 108

数学推理

共 3 项评测

评测名称 / 模式

得分

排名/总数

92

9 / 62

86.90

46 / 106

FrontierMath - Tier 4

常规模式

4.20

40 / 80

常识推理

共 1 项评测

评测名称 / 模式

得分

排名/总数

常规模式

51.60

27 / 63

Agent能力评测

共 1 项评测

评测名称 / 模式

得分

排名/总数

常规模式

72.90

12 / 59

OpenClaw智能体能力综合测评

共 2 项评测

评测名称 / 模式

得分

排名/总数

开启思考工具

80.40

20 / 29

开启思考工具

71.90

29 / 37

与其他模型对比