Gemini 3.1 Pro PreviewvsGemini 2.5 Pro Experimental 03-25

在 6 个共同 benchmark 中，Gemini 3.1 Pro Preview 整体领先：Gemini 3.1 Pro Preview 领先 6 项，Gemini 2.5 Pro Experimental 03-25 领先 0 项，持平 0 项，平均分差 +18.05。

Google Deep Mind · 2026-02-20 · 多模态大模型

Google Deep Mind · 2025-03-25 · 推理大模型

Gemini 3.1 Pro Preview6 项(100%)(0%)0 项Gemini 2.5 Pro Experimental 03-25

评测分数

按能力类目分组，每组内按分差大小排列；共 6 项。

Gemini 3.1 Pro Preview 领先 2/2

评测项	Gemini 3.1 Pro Preview	Gemini 2.5 Pro Experimental 03-25	分差
LiveCodeBench	91.703 / 120Thinking High (With Tools)	70.4053 / 120	+21.30
SWE-bench Verified	80.6010 / 108Thinking High (With Tools)	63.8072 / 108	+16.80

Gemini 3.1 Pro Preview 领先 2/2

评测项	Gemini 3.1 Pro Preview	Gemini 2.5 Pro Experimental 03-25	分差
HLE	51.4015 / 157Thinking High (With Tools)	18.80108 / 157	+32.60
GPQA Diamond	94.303 / 178Thinking High (No Tools)	8454 / 178	+10.30

Gemini 3.1 Pro Preview 领先 1/1

评测项	Gemini 3.1 Pro Preview	Gemini 2.5 Pro Experimental 03-25	分差
Pinch Bench	86.7010 / 37Thinking (With Tools)	71.9029 / 37Thinking (With Tools)	+14.80

Gemini 3.1 Pro Preview 领先 1/1

评测项	Gemini 3.1 Pro Preview	Gemini 2.5 Pro Experimental 03-25	分差
FrontierMath - Tier 4	16.7020 / 80Normal (No Tools)	4.2040 / 80Normal (No Tools)	+12.50

价格优先使用 DataLearner 配置的 API 记录；缺失项不做推测。

价格项	Gemini 3.1 Pro Preview	Gemini 2.5 Pro Experimental 03-25
文本输入	$2 / 1M tokens	暂无公开价格
文本输出	$12 / 1M tokens	暂无公开价格

部分模型公开价格不完整，缺失字段按"暂无公开价格"展示。

Gemini 3.1 Pro Preview在以下类目领先:Coding and Software Engineer (2/2)、General Knowledge (2/2)、Claw-style Agent Evaluation (1/1)、Math and Reasoning (1/1)

6 个共同 benchmark 上，Gemini 3.1 Pro Preview 平均高出 18.05 分。

单项差距最大的 benchmark：HLE — Gemini 3.1 Pro Preview 51.40，Gemini 2.5 Pro Experimental 03-25 18.80（分差 +32.60）。

本页正文由结构化模型、价格与 benchmark 数据生成，不使用实时 LLM 撰写。