Gemini 3.1 Pro Preview 评测深度分析

Gemini 3.1 Pro Preview 当前已收录的代表性评测结果包括 GPQA Diamond(3 / 179,得分 94.30)、LiveCodeBench(3 / 120,得分 91.70)、LiveBench(3 / 115,得分 79.93)。本页还提供与 2 个竞品模型及 3 个前代或同系列模型的对比,在有数据时会展示性能和价格视图。并附有 3 个数据来源链接供参考。

Google 在模型评估中提供了多项基准测试结果。Gemini 3.1 Pro 在以下测试中得分高于 Gemini 3 Pro(括号内为 Gemini 3 Pro 对应分数,所有结果基于 2026 年 2 月数据,使用指定思考模式或无工具设置):

Humanity's Last Exam(学术推理,全集,文本+多模态,无工具):44.4%(37.5%) ARC-AGI-2(抽象推理谜题,ARC Prize Verified):77.1%(31.1%) GPQA Diamond(科学知识,无工具):94.3%(91.9%) Terminal-Bench 2.0(代理终端编码,Terminus-2 harness):68.5%(56.9%) SWE-Bench Verified(代理编码,单次尝试):80.6%(76.2%) LiveCodeBench Pro(竞争性编程,Elo 分数):2887(2439) MMMLU(多语言问答):92.6%(91.8%) MRCR v2(长上下文,128k 平均):84.9%(77.0%)

在多模态理解(MMMU-Pro,无工具)上得分为 80.5%(Gemini 3 Pro 为 81.0%)。在代理工具使用和长上下文等类别中,多数指标也有相应变化。Google 同时提供了与其他模型(如 Claude Sonnet 4.6、Opus 4.6 及 GPT 系列)的比较数据。 模型卡指出,Gemini 3.1 Pro 在前沿安全框架评估中未达到关键能力水平(CCL)警戒阈值,包括 CBRN、cyber 等风险领域。安全评估显示,与 Gemini 3 Pro 相比,部分指标有小幅变化。

评测结果

Gemini 3.1 Pro Preview

评测结果

思考模式
工具使用
联网能力

综合评估

共 7 项评测
评测名称 / 模式
得分
排名/总数
94.30
3 / 179
MMLU
92.60
3 / 65
79.93
3 / 115
77.10
7 / 59
HLE
44.40
38 / 161
HLE
工具
51.40
17 / 161
0
3 / 6

编程与软件工程

共 4 项评测
评测名称 / 模式
得分
排名/总数
LiveCodeBench
工具
91.70
3 / 120
80.60
10 / 108
54.20
24 / 44
DeepSWE
工具
12
9 / 9

多模态理解

共 1 项评测
评测名称 / 模式
得分
排名/总数
MMMU
80.50
11 / 28

常识推理

共 1 项评测
评测名称 / 模式
得分
排名/总数
Simple Bench
常规模式
79.60
2 / 63

Agent能力评测

共 2 项评测
评测名称 / 模式
得分
排名/总数
99.30
1 / 35
τ²-Bench
工具
90.80
2 / 40

数学推理

共 3 项评测
评测名称 / 模式
得分
排名/总数
36.90
11 / 60
16.70
20 / 80
16.70
20 / 80

AI Agent - 信息收集

共 1 项评测
评测名称 / 模式
得分
排名/总数
BrowseComp
工具联网
85.90
3 / 46

AI Agent - 工具使用

共 3 项评测
评测名称 / 模式
得分
排名/总数
MCP-Atlas
工具
78.20
6 / 23
70.70
10 / 16
68.50
8 / 46

OpenClaw智能体能力综合测评

共 1 项评测
评测名称 / 模式
得分
排名/总数
Pinch Bench
开启思考工具
86.70
10 / 37

竞品对比

Gemini 3.1 Pro Preview 与同类主流模型的评测得分对比

Gemini 3.1 Pro PreviewClaude Opus 4.6GPT-5.3
评测类别:
柱状图按当前筛选范围内每个模型在各评测中的最高分展示;百分制评测使用原始高度,超出 0-100 的评测按该评测内相对比例缩放,标签仍保留原始分数。

12 项可对比评测得分汇总。每个模型展示最佳得分,模式在分数下方标注。

评测项Gemini 3.1 Pro Preview当前Claude Opus 4.6
ARC-AGI-2
综合评估
77.10思考水平·高
66.30扩展思考
GPQA Diamond
综合评估
94.30思考水平·高
91.31扩展思考
HLE
综合评估
51.40思考水平·高 | 工具
53.00扩展思考 | 工具
MMLU
综合评估
92.60思考水平·高
91.05扩展思考
LiveCodeBench
编程与软件工程
91.70思考水平·高 | 工具
76.00扩展思考
SWE-bench Verified
编程与软件工程
80.60思考水平·高 | 工具
80.84扩展思考 | 工具
MMMU
多模态理解
80.50思考水平·高
77.30扩展思考 | 工具
Simple Bench
常识推理
79.60常规模式
67.60常规模式
τ²-Bench
Agent能力评测
90.80思考水平·高 | 工具
91.89扩展思考 | 工具
τ²-Bench - Telecom
Agent能力评测
99.30思考水平·高 | 工具
99.25扩展思考 | 工具
FrontierMath
数学推理
36.90思考水平·高
40.70思考水平·高
16.70思考水平·高
22.90思考水平·高
其余 3 个 benchmark 仍可在上方图表中查看。

Gemini 3.1 Pro Preview 与同类模型的标准 API 价格对比

按模型并排展示标准文本输入价与输出价;若存在超长上下文加价,仅保留阈值内标准价,并在下方说明适用范围。

数据来源:DataLearnerAI,展示默认供应商的标准文本价格。 · USD / 1M tokens

若存在上下文阈值,图中标准价仅适用于以下范围:

Gemini 3.1 Pro Preview: 标准价适用于 <= 200K
Claude Opus 4.6: 标准价适用于 <= 200K
模型供应商标准输入标准输出标准价适用于
Gemini 3.1 Pro Preview
Google Deep Mind$2 / 1M tokens$12 / 1M tokens<= 200K
Claude Opus 4.6
Anthropic$5 / 1M tokens$25 / 1M tokens<= 200K

历代版本对比

Gemini 3.1 Pro Preview 系列各版本的评测成绩纵向对比

评测类别:
柱状图按当前筛选范围内每个模型在各评测中的最高分展示;百分制评测使用原始高度,超出 0-100 的评测按该评测内相对比例缩放,标签仍保留原始分数。

5 项可对比评测得分汇总。每个模型展示最佳得分,模式在分数下方标注。· 点击任意行可切换下方趋势图。

评测项Gemini 3.1 Pro Preview当前Gemini 3.0 Pro (Preview 11-2025)Gemini 2.5-ProGemini 2.5 Pro Experimental 03-25
LiveBench
综合评估
79.93思考水平·高
73.39思考水平·高
58.33思考水平·高
--
16.70常规模式
18.80开启思考
2.10常规模式
--
BrowseComp
AI Agent - 信息收集
85.90思考水平·高 | 工具
59.20思考水平·高 | 工具
7.80开启思考 | 工具
--
MCP-Atlas
AI Agent - 工具使用
78.20思考水平·高 | 工具
70.30常规模式 | 工具
--
--
Pinch Bench
OpenClaw智能体能力综合测评
86.70开启思考 | 工具
70.70开启思考 | 工具
--
71.90开启思考 | 工具

单评测历史趋势图

当前查看:LiveBench · 综合评估

选择评测
常规常规 + 工具推理推理 + 工具深度推理深度推理 + 工具

横轴为模型与发布时间,纵轴为分数;同一模式会用实线串起版本变化,同代不同模式继续用虚线辅助对齐。

Gemini 3.1 Pro Preview 所在系列的标准 API 价格对比

按模型并排展示标准文本输入价与输出价;若存在超长上下文加价,仅保留阈值内标准价,并在下方说明适用范围。

数据来源:DataLearnerAI,展示默认供应商的标准文本价格。 · USD / 1M tokens

若存在上下文阈值,图中标准价仅适用于以下范围:

Gemini 3.1 Pro Preview: 标准价适用于 <= 200K
模型供应商标准输入标准输出标准价适用于
Gemini 3.1 Pro Preview
Google Deep Mind$2 / 1M tokens$12 / 1M tokens<= 200K

数据来源