评测结果

Gemini 3.1 Pro Preview

评测结果

综合评估

共 6 项评测

评测名称 / 模式

得分

排名/总数

GPQA Diamond

高

94.30

3 / 175

MMLU

高

92.60

3 / 65

ARC-AGI-2

高

77.10

7 / 59

HLE

高

44.40

31 / 150

HLE

高工具

51.40

12 / 150

ARC-AGI-3

高

3 / 6

编程与软件工程

共 3 项评测

评测名称 / 模式

得分

排名/总数

LiveCodeBench

高工具

91.70

3 / 118

SWE-bench Verified

高工具

80.60

7 / 103

SWE-Bench Pro - Public

高工具

54.20

18 / 38

多模态理解

共 1 项评测

评测名称 / 模式

得分

排名/总数

MMMU

高

80.50

11 / 28

Agent能力评测

共 2 项评测

评测名称 / 模式

得分

排名/总数

τ²-Bench - Telecom

高工具

99.30

1 / 35

τ²-Bench

高工具

90.80

2 / 40

数学推理

共 3 项评测

评测名称 / 模式

得分

排名/总数

FrontierMath

高

36.90

11 / 60

FrontierMath - Tier 4

常规模式

16.70

20 / 80

FrontierMath - Tier 4

高

16.70

20 / 80

AI Agent - 信息收集

共 1 项评测

评测名称 / 模式

得分

排名/总数

BrowseComp

高工具联网

85.90

3 / 43

AI Agent - 工具使用

共 1 项评测

评测名称 / 模式

得分

排名/总数

Terminal Bench 2.0

高工具

68.50

7 / 44

OpenClaw智能体能力综合测评

共 1 项评测

评测名称 / 模式

得分

排名/总数

Pinch Bench

开启思考工具

86.70

10 / 37

与其他模型对比

竞品对比

Gemini 3.1 Pro Preview 与同类主流模型的评测得分对比

评测类别:

柱状图按当前筛选范围内每个模型在各评测中的最高分展示；具体模式明细请看下方表格。

12 项可对比评测得分汇总。每个模型展示最佳得分，模式在分数下方标注。

评测项	Gemini 3.1 Pro Preview当前	Claude Opus 4.6
ARC-AGI-2 综合评估	77.10思考水平·高	66.30扩展思考
GPQA Diamond 综合评估	94.30思考水平·高	91.31扩展思考
HLE 综合评估	51.40思考水平·高｜工具	53.00扩展思考｜工具
MMLU 综合评估	92.60思考水平·高	91.05扩展思考
LiveCodeBench 编程与软件工程	91.70思考水平·高｜工具	76.00扩展思考
SWE-bench Verified 编程与软件工程	80.60思考水平·高｜工具	80.84扩展思考｜工具
MMMU 多模态理解	80.50思考水平·高	77.30扩展思考｜工具
τ²-Bench Agent能力评测	90.80思考水平·高｜工具	91.89扩展思考｜工具
τ²-Bench - Telecom Agent能力评测	99.30思考水平·高｜工具	99.25扩展思考｜工具
FrontierMath 数学推理	36.90思考水平·高	40.70思考水平·高
FrontierMath - Tier 4 数学推理	16.70常规模式	22.90思考水平·高
BrowseComp AI Agent - 信息收集	85.90思考水平·高｜工具	84.00开启思考｜工具

其余 2 个 benchmark 仍可在上方图表中查看。

Gemini 3.1 Pro Preview 与同类模型的标准 API 价格对比

按模型并排展示标准文本输入价与输出价；若存在超长上下文加价，仅保留阈值内标准价，并在下方说明适用范围。

数据来源：DataLearnerAI，展示默认供应商的标准文本价格。 · USD / 1M tokens

若存在上下文阈值，图中标准价仅适用于以下范围：

Gemini 3.1 Pro Preview: 标准价适用于 <= 200K

Claude Opus 4.6: 标准价适用于 <= 200K

模型	供应商	标准输入	标准输出	标准价适用于
Gemini 3.1 Pro Preview	Google Deep Mind	$2 / 1M tokens	$12 / 1M tokens	<= 200K
Claude Opus 4.6	Anthropic	$5 / 1M tokens	$25 / 1M tokens	<= 200K

历代版本对比

Gemini 3.1 Pro Preview 系列各版本的评测成绩纵向对比

评测类别:

柱状图按当前筛选范围内每个模型在各评测中的最高分展示；具体模式明细请看下方表格。

12 项可对比评测得分汇总。每个模型展示最佳得分，模式在分数下方标注。· 点击任意行可切换下方趋势图。

评测项	Gemini 3.1 Pro Preview当前	Gemini 3.0 Pro (Preview 11-2025)	Gemini 2.5-Pro	Gemini 2.5 Pro Experimental 03-25
ARC-AGI-2 综合评估	77.10思考水平·高	45.10开启思考	4.90开启思考	--
GPQA Diamond 综合评估	94.30思考水平·高	93.80开启思考	86.40开启思考	84.00常规模式
HLE 综合评估	51.40思考水平·高｜工具	45.80思考水平·高｜工具	21.60开启思考	18.80常规模式
LiveCodeBench 编程与软件工程	91.70思考水平·高｜工具	92.00开启思考	77.10常规模式	70.40常规模式
SWE-bench Verified 编程与软件工程	80.60思考水平·高｜工具	76.20开启思考	67.20开启思考	63.80常规模式
MMMU 多模态理解	80.50思考水平·高	--	82.00开启思考	--
τ²-Bench Agent能力评测	90.80思考水平·高｜工具	85.40开启思考｜工具	--	--
τ²-Bench - Telecom Agent能力评测	99.30思考水平·高｜工具	98.00思考水平·高｜工具	54.00开启思考｜工具	--
FrontierMath 数学推理	36.90思考水平·高	38.00开启思考	11.00常规模式	--
FrontierMath - Tier 4 数学推理	16.70常规模式	18.80开启思考	2.10常规模式	4.20常规模式
BrowseComp AI Agent - 信息收集	85.90思考水平·高｜工具	59.20思考水平·高｜工具	7.80开启思考｜工具	--
Terminal Bench 2.0 AI Agent - 工具使用	68.50思考水平·高｜工具	56.90思考水平·高｜工具	32.60开启思考｜工具	--

其余 1 个 benchmark 仍可在上方图表中查看。

单评测历史趋势图

当前查看：ARC-AGI-2 · 综合评估

选择评测

常规常规 + 工具推理推理 + 工具深度推理深度推理 + 工具

横轴为模型与发布时间，纵轴为分数；同一模式会用实线串起版本变化，同代不同模式继续用虚线辅助对齐。

Gemini 3.1 Pro Preview 所在系列的标准 API 价格对比

按模型并排展示标准文本输入价与输出价；若存在超长上下文加价，仅保留阈值内标准价，并在下方说明适用范围。

数据来源：DataLearnerAI，展示默认供应商的标准文本价格。 · USD / 1M tokens

若存在上下文阈值，图中标准价仅适用于以下范围：

Gemini 3.1 Pro Preview: 标准价适用于 <= 200K

Gemini 3.0 Pro (Preview 11-2025): 标准价适用于 <= 200K

Gemini 2.5-Pro: 标准价适用于 <= 200K

模型	供应商	标准输入	标准输出	标准价适用于
Gemini 3.1 Pro Preview	Google Deep Mind	$2 / 1M tokens	$12 / 1M tokens	<= 200K
Gemini 3.0 Pro (Preview 11-2025)	—	2 美元/100万 tokens	12 美元/100万 tokens	<= 200K
Gemini 2.5-Pro	—	1.25 美元/100 万tokens	10 美元/100 万tokens	<= 200K

Google 在模型评估中提供了多项基准测试结果。Gemini 3.1 Pro 在以下测试中得分高于 Gemini 3 Pro（括号内为 Gemini 3 Pro 对应分数，所有结果基于 2026 年 2 月数据，使用指定思考模式或无工具设置）：

Humanity's Last Exam（学术推理，全集，文本+多模态，无工具）：44.4%（37.5%） ARC-AGI-2（抽象推理谜题，ARC Prize Verified）：77.1%（31.1%） GPQA Diamond（科学知识，无工具）：94.3%（91.9%） Terminal-Bench 2.0（代理终端编码，Terminus-2 harness）：68.5%（56.9%） SWE-Bench Verified（代理编码，单次尝试）：80.6%（76.2%） LiveCodeBench Pro（竞争性编程，Elo 分数）：2887（2439） MMMLU（多语言问答）：92.6%（91.8%） MRCR v2（长上下文，128k 平均）：84.9%（77.0%）

在多模态理解（MMMU-Pro，无工具）上得分为 80.5%（Gemini 3 Pro 为 81.0%）。在代理工具使用和长上下文等类别中，多数指标也有相应变化。Google 同时提供了与其他模型（如 Claude Sonnet 4.6、Opus 4.6 及 GPT 系列）的比较数据。模型卡指出，Gemini 3.1 Pro 在前沿安全框架评估中未达到关键能力水平（CCL）警戒阈值，包括 CBRN、cyber 等风险领域。安全评估显示，与 Gemini 3 Pro 相比，部分指标有小幅变化。

评测结果

评测结果

综合评估

编程与软件工程

多模态理解

Agent能力评测

数学推理

AI Agent - 信息收集

AI Agent - 工具使用

OpenClaw智能体能力综合测评

竞品对比

Gemini 3.1 Pro Preview 与同类模型的标准 API 价格对比

历代版本对比

单评测历史趋势图

Gemini 3.1 Pro Preview 所在系列的标准 API 价格对比

Gemini 3.1 Pro Preview 评测深度分析

数据来源