Gemini 3.0 Pro (Preview 11-2025) 评测深度分析

Gemini 3.0 Pro (Preview 11-2025) 当前已收录的代表性评测结果包括 MMLU Pro（2 / 126，得分 90）、LiveCodeBench（2 / 120，得分 92）、GPQA Diamond（5 / 180，得分 93.80）。并附有 1 个数据来源链接供参考。

谷歌发布的Gemini 3.0系列中最强的模型

评测结果

Gemini 3.0 Pro (Preview 11-2025)

评测结果

综合评估

共 14 项评测

评测名称 / 模式

得分

排名/总数

GPQA Diamond

93.80

5 / 180

GPQA Diamond

91.90

13 / 180

GPQA Diamond

16 / 180

MMLU Pro

2 / 126

ARC-AGI

87.50

17 / 65

ARC-AGI

24 / 65

LiveBench

思考水平·低

63.90

54 / 115

LiveBench

思考水平·高

73.39

24 / 115

HLE

45.80

34 / 163

HLE

53 / 163

HLE

37.50

62 / 163

HLE

37.20

63 / 163

ARC-AGI-2

45.10

23 / 59

ARC-AGI-2

31.10

29 / 59

常识问答

共 1 项评测

评测名称 / 模式

得分

排名/总数

SimpleQA

72.10

5 / 45

编程与软件工程

共 2 项评测

评测名称 / 模式

得分

排名/总数

LiveCodeBench

2 / 120

SWE-bench Verified

76.20

33 / 109

数学推理

共 5 项评测

评测名称 / 模式

得分

排名/总数

AIME2025

25 / 106

AIME 2026

90.60

13 / 15

FrontierMath

10 / 60

FrontierMath - Tier 4

常规模式

18.80

16 / 80

FrontierMath - Tier 4

18.80

16 / 80

常识推理

共 1 项评测

评测名称 / 模式

得分

排名/总数

Simple Bench

思考模式

76.40

5 / 63

Agent能力评测

共 4 项评测

评测名称 / 模式

得分

排名/总数

τ²-Bench - Telecom

5 / 35

τ²-Bench

85.40

8 / 40

Terminal Bench Hard

4 / 13

Terminal Bench Hard

5 / 13

指令跟随

共 2 项评测

评测名称 / 模式

得分

排名/总数

IF Bench

12 / 29

IF Bench

12 / 29

AI Agent - 信息收集

共 1 项评测

评测名称 / 模式

得分

排名/总数

BrowseComp

59.20

33 / 47

AI Agent - 工具使用

共 3 项评测

评测名称 / 模式

得分

排名/总数

MCP-Atlas

常规模式工具

70.30

12 / 24

Terminal Bench 2.0

56.90

25 / 46

Terminal Bench 2.0

54.20

28 / 46

生产力知识

共 1 项评测

评测名称 / 模式

得分

排名/总数

GDPval-AA

18 / 21

长上下文能力

共 1 项评测

评测名称 / 模式

得分

排名/总数

AA-LCR

2 / 14

OpenClaw智能体能力综合测评

共 1 项评测

评测名称 / 模式

得分

排名/总数

Pinch Bench

思考模式工具

70.70

31 / 37

与其他模型对比

数据来源

artificialanalysis.aiartificialanalysis.ai