Gemini 2.5 Pro是谷歌发布的Gemini 2.5系列模型中最强的一个。

评测结果

Gemini 2.5-Pro

评测结果

综合评估

共 6 项评测

评测名称 / 模式

得分

排名/总数

GPQA Diamond

86.40

43 / 180

MMLU Pro

20 / 126

LiveBench

思考水平·高

58.33

76 / 115

ARC-AGI

47 / 65

HLE

21.60

104 / 164

ARC-AGI-2

4.90

44 / 59

常识问答

共 1 项评测

评测名称 / 模式

得分

排名/总数

SimpleQA

10 / 45

编程与软件工程

共 3 项评测

评测名称 / 模式

得分

排名/总数

CodeClash

常规模式工具

1125

6 / 8

LiveCodeBench

77.10

34 / 120

SWE-bench Verified

67.20

69 / 109

数学推理

共 9 项评测

评测名称 / 模式

得分

排名/总数

MATH-500

98.80

1 / 44

AIME 2024

9 / 62

AIME2025

43 / 106

IMO-ProofBench

55.20

3 / 16

IMO 2024

2 / 10

IMO-ProofBench Advanced

17.60

4 / 8

IMO 2025

15.20

3 / 9

FrontierMath

23 / 60

FrontierMath - Tier 4

常规模式

2.10

56 / 80

写作和创作

共 1 项评测

评测名称 / 模式

得分

排名/总数

Creative Writing

85.85

8 / 23

AI Agent - 工具使用

共 2 项评测

评测名称 / 模式

得分

排名/总数

Terminal Bench 2.0

32.60

46 / 46

Terminal-Bench

25.30

28 / 35

多模态理解

共 1 项评测

评测名称 / 模式

得分

排名/总数

MMMU

9 / 28

常识推理

共 1 项评测

评测名称 / 模式

得分

排名/总数

Simple Bench

开启思考

62.40

11 / 63

Agent能力评测

共 4 项评测

评测名称 / 模式

得分

排名/总数

Aider-Polyglot

32K

83.10

4 / 59

Aider-Polyglot

开启思考

79.10

8 / 59

τ²-Bench - Telecom

32 / 35

Terminal Bench Hard

12 / 13

指令跟随

共 1 项评测

评测名称 / 模式

得分

排名/总数

IF Bench

28 / 29

AI Agent - 信息收集

共 1 项评测

评测名称 / 模式

得分

排名/总数

BrowseComp

7.80

48 / 49

生产力知识

共 1 项评测

评测名称 / 模式

得分

排名/总数

GDPval-AA

21 / 21

长上下文能力

共 1 项评测

评测名称 / 模式

得分

排名/总数

AA-LCR

9 / 14

与其他模型对比

Gemini 2.5-Pro 评测深度分析

评测结果

评测结果

综合评估

常识问答

编程与软件工程

数学推理

写作和创作

AI Agent - 工具使用

多模态理解

常识推理

Agent能力评测

指令跟随

AI Agent - 信息收集

生产力知识

长上下文能力

数据来源