DataLearnerAI
Toggle menu
最新AI资讯
大模型评测
大模型列表
大模型对比
资源中心
AI工具导航
搜索博客
中
EN
加载中...
Gemini 3.0 Pro (Preview 11-2025) 评测深度分析 | DataLearnerAI
大模型列表
Gemini 3.0 Pro (Preview 11-2025)
评测分析
Gemini 3.0 Pro (Preview 11-2025) 评测深度分析
Google Deep Mind
更新于 2026/2/22
16 次阅读
分享
深度分析
谷歌发布的Gemini 3.0系列中最强的模型
评测结果
Gemini 3.0 Pro (Preview 11-2025)
评测结果
工具使用
全部工具
使用工具
不使用工具
综合评估
共 13 项评测
评测名称 / 模式
得分
排名/总数
GPQA Diamond
并行思考
93.80
2 / 153
GPQA Diamond
思考
91.90
5 / 153
GPQA Diamond
思考·高强度
91
7 / 153
MMLU Pro
思考
90
2 / 112
ARC-AGI
并行思考
87.50
5 / 42
ARC-AGI
思考
75
9 / 42
LiveBench
思考
74.14
9 / 52
HLE
思考·高强度 + 使用工具
45.80
11 / 105
ARC-AGI-2
并行思考
45.10
10 / 34
HLE
并行思考
41
20 / 105
HLE
思考
37.50
24 / 105
HLE
思考·高强度
37.20
25 / 105
ARC-AGI-2
思考
31.10
13 / 34
常识问答
共 1 项评测
评测名称 / 模式
得分
排名/总数
SimpleQA
思考
72.10
5 / 44
编程与软件工程
共 2 项评测
评测名称 / 模式
得分
排名/总数
LiveCodeBench
思考
92
1 / 103
SWE-bench Verified
思考
76.20
17 / 87
数学推理
共 4 项评测
评测名称 / 模式
得分
排名/总数
AIME2025
思考
95
24 / 105
AIME 2026
思考
90.60
7 / 7
FrontierMath
思考
38
2 / 52
FrontierMath - Tier 4
思考
18.80
2 / 32
常识推理
共 1 项评测
评测名称 / 模式
得分
排名/总数
Simple Bench
思考
76.40
1 / 27
Agent能力评测
共 4 项评测
评测名称 / 模式
得分
排名/总数
τ²-Bench - Telecom
思考·高强度 + 使用工具
98
4 / 29
τ²-Bench
思考 + 使用工具
85.40
6 / 34
Terminal Bench Hard
思考·高强度 + 使用工具
42
6 / 14
Terminal Bench Hard
思考 + 使用工具
39
7 / 14
指令跟随
共 2 项评测
评测名称 / 模式
得分
排名/总数
IF Bench
思考·高强度 + 使用工具
70
6 / 25
IF Bench
思考
70
6 / 25
AI Agent - 信息收集
共 1 项评测
评测名称 / 模式
得分
排名/总数
BrowseComp
思考·高强度 + 使用工具
59.20
15 / 27
AI Agent - 工具使用
共 2 项评测
评测名称 / 模式
得分
排名/总数
Terminal Bench 2.0
思考·高强度 + 使用工具
56.90
7 / 20
Terminal Bench 2.0
思考 + 使用工具
54.20
8 / 20
生产力知识
共 1 项评测
评测名称 / 模式
得分
排名/总数
GDPval-AA
思考·高强度
35
8 / 11
长上下文能力
共 1 项评测
评测名称 / 模式
得分
排名/总数
AA-LCR
思考·高强度
71
1 / 12
与其他模型对比
数据来源与参考
artificialanalysis.ai