Gemini 3.1 Pro PreviewvsGemini 2.5-Pro

在 11 个共同 benchmark 中，Gemini 3.1 Pro Preview 整体领先：Gemini 3.1 Pro Preview 领先 10 项，Gemini 2.5-Pro 领先 1 项，持平 0 项，平均分差 +30.56。

Google Deep Mind · 2026-02-20 · 多模态大模型

Google Deep Mind · 2025-06-05 · 推理大模型

Gemini 3.1 Pro Preview10 项(91%)(9%)1 项Gemini 2.5-Pro

评测分数

按能力类目分组，每组内按分差大小排列；共 11 项。

Gemini 3.1 Pro Preview 领先 3/3

评测项	Gemini 3.1 Pro Preview	Gemini 2.5-Pro	分差
ARC-AGI-2	77.107 / 59Thinking High (No Tools)	4.9044 / 59	+72.20
HLE	51.4015 / 157Thinking High (With Tools)	21.6097 / 157	+29.80
GPQA Diamond	94.303 / 178Thinking High (No Tools)	86.4041 / 178	+7.90

Gemini 3.1 Pro Preview 领先 2/2

评测项	Gemini 3.1 Pro Preview	Gemini 2.5-Pro	分差
LiveCodeBench	91.703 / 120Thinking High (With Tools)	77.1034 / 120	+14.60
SWE-bench Verified	80.6010 / 108Thinking High (With Tools)	67.2068 / 108	+13.40

Gemini 3.1 Pro Preview 领先 2/2

评测项	Gemini 3.1 Pro Preview	Gemini 2.5-Pro	分差
FrontierMath	36.9011 / 60Thinking High (No Tools)	1123 / 60	+25.90
FrontierMath - Tier 4	16.7020 / 80Normal (No Tools)	2.1056 / 80Normal (No Tools)	+14.60

Gemini 3.1 Pro Preview 领先 1/1

评测项	Gemini 3.1 Pro Preview	Gemini 2.5-Pro	分差
τ²-Bench - Telecom	99.301 / 35Thinking High (With Tools)	5432 / 35	+45.30

Gemini 3.1 Pro Preview 领先 1/1

评测项	Gemini 3.1 Pro Preview	Gemini 2.5-Pro	分差
BrowseComp	85.903 / 45Thinking High (With Tools + Internet)	7.8044 / 45	+78.10

Gemini 3.1 Pro Preview 领先 1/1

评测项	Gemini 3.1 Pro Preview	Gemini 2.5-Pro	分差
Terminal Bench 2.0	68.508 / 46Thinking High (With Tools)	32.6046 / 46	+35.90

Gemini 2.5-Pro 领先 1/1

评测项	Gemini 3.1 Pro Preview	Gemini 2.5-Pro	分差
MMMU	80.5011 / 28Thinking High (No Tools)	829 / 28	-1.50

价格优先使用 DataLearner 配置的 API 记录；缺失项不做推测。

价格项	Gemini 3.1 Pro Preview	Gemini 2.5-Pro
文本输入	$2 / 1M tokens	暂无公开价格
文本输出	$12 / 1M tokens	暂无公开价格

部分模型公开价格不完整，缺失字段按"暂无公开价格"展示。

Gemini 3.1 Pro Preview在以下类目领先:General Knowledge (3/3)、Coding and Software Engineer (2/2)、Math and Reasoning (2/2)、Agent Level Benchmark (1/1)、AI Agent - Information Search (1/1)、AI Agent - Tool Usage (1/1)
Gemini 2.5-Pro在以下类目领先:Multimodal Understanding (1/1)

11 个共同 benchmark 上，Gemini 3.1 Pro Preview 平均高出 30.56 分。

单项差距最大的 benchmark：BrowseComp — Gemini 3.1 Pro Preview 85.90，Gemini 2.5-Pro 7.80（分差 +78.10）。

本页正文由结构化模型、价格与 benchmark 数据生成，不使用实时 LLM 撰写。