DataLearnerAI
Toggle menu
最新AI资讯
大模型评测
大模型列表
大模型对比
资源中心
AI工具导航
搜索博客
中
EN
加载中...
Gemini 2.5-Pro 评测深度分析 | DataLearnerAI
大模型列表
Gemini 2.5-Pro
评测分析
Gemini 2.5-Pro 评测深度分析
Google Deep Mind
更新于 2026/2/22
5 次阅读
分享
深度分析
Gemini 2.5 Pro是谷歌发布的Gemini 2.5系列模型中最强的一个。
评测结果
Gemini 2.5-Pro
评测结果
思考模式
全部模式
常规
思考
工具使用
全部工具
使用工具
不使用工具
综合评估
共 6 项评测
评测名称 / 模式
得分
排名/总数
GPQA Diamond
思考
86.40
21 / 153
MMLU Pro
常规
86
11 / 112
LiveBench
思考
71.92
13 / 52
ARC-AGI
思考
37
27 / 42
HLE
思考
21.60
50 / 105
ARC-AGI-2
思考
4.90
25 / 34
常识问答
共 1 项评测
评测名称 / 模式
得分
排名/总数
SimpleQA
常规
54
9 / 44
编程与软件工程
共 2 项评测
评测名称 / 模式
得分
排名/总数
LiveCodeBench
常规
77.10
21 / 103
SWE-bench Verified
思考
67.20
50 / 87
数学推理
共 9 项评测
评测名称 / 模式
得分
排名/总数
MATH-500
常规
98.80
1 / 42
AIME 2024
常规
92
9 / 62
AIME2025
思考
88
41 / 105
IMO-ProofBench
思考
55.20
3 / 16
IMO 2024
思考
19
2 / 10
IMO-ProofBench Advanced
思考
17.60
4 / 8
IMO 2025
思考
15.20
3 / 9
FrontierMath
常规
11
15 / 52
FrontierMath - Tier 4
常规
4.20
12 / 32
写作和创作
共 1 项评测
评测名称 / 模式
得分
排名/总数
Creative Writing
常规
85.85
8 / 22
AI Agent - 工具使用
共 2 项评测
评测名称 / 模式
得分
排名/总数
Terminal Bench 2.0
思考 + 使用工具
32.60
20 / 20
Terminal-Bench
思考
25.30
28 / 35
多模态理解
共 1 项评测
评测名称 / 模式
得分
排名/总数
MMMU
思考
82
5 / 17
常识推理
共 1 项评测
评测名称 / 模式
得分
排名/总数
Simple Bench
思考
62.40
2 / 27
Agent能力评测
共 3 项评测
评测名称 / 模式
得分
排名/总数
Aider-Polyglot
思考
83.10
2 / 26
τ²-Bench - Telecom
思考 + 使用工具
54
26 / 29
Terminal Bench Hard
思考 + 使用工具
25
13 / 14
指令跟随
共 1 项评测
评测名称 / 模式
得分
排名/总数
IF Bench
思考 + 使用工具
49
23 / 25
AI Agent - 信息收集
共 1 项评测
评测名称 / 模式
得分
排名/总数
BrowseComp
思考 + 使用工具
7.80
26 / 27
生产力知识
共 1 项评测
评测名称 / 模式
得分
排名/总数
GDPval-AA
思考
22
11 / 11
长上下文能力
共 1 项评测
评测名称 / 模式
得分
排名/总数
AA-LCR
思考
66
6 / 12
与其他模型对比
数据来源与参考
kaggle.com
artificialanalysis.ai