GPT-5.4vsGemini 3.1 Pro Preview

在 15 个共同 benchmark 中，GPT-5.4 整体领先：GPT-5.4 领先 8 项，Gemini 3.1 Pro Preview 领先 5 项，持平 2 项，平均分差 +1.84。

OpenAI · 2026-03-05 · 多模态大模型

Google Deep Mind · 2026-02-20 · 多模态大模型

GPT-5.48 项(53%)持平2(33%)5 项Gemini 3.1 Pro Preview

评测分数

按能力类目分组，每组内按分差大小排列；共 15 项。

GPT-5.4 领先 2/5

评测项	GPT-5.4	Gemini 3.1 Pro Preview	分差
GPQA Diamond	92.8011 / 187极高强度思考（无工具）	94.303 / 187Thinking High (No Tools)	-1.50
HLE	52.1021 / 172极高强度思考（工具）	51.4022 / 172Thinking High (With Tools)	+0.70
LiveBench	80.282 / 115Deep Thinking (No Tools)	79.933 / 115Thinking High (No Tools)	+0.35
ARC-AGI-3	07 / 9Thinking High (No Tools)	06 / 9Thinking High (No Tools)	持平
ARC-AGI-2	77.109 / 62Normal (No Tools)	77.109 / 62Thinking High (No Tools)	持平

Gemini 3.1 Pro Preview 领先 2/3

评测项	GPT-5.4	Gemini 3.1 Pro Preview	分差
MCP-Atlas	70.6014 / 27极高强度思考（工具）	78.209 / 27Thinking High (With Tools)	-7.60
Terminal Bench 2.0	75.104 / 47极高强度思考（工具）	68.508 / 47Thinking High (With Tools)	+6.60
OSWorld-Verified	7512 / 24极高强度思考（工具）	76.2011 / 24Thinking (With Tools)	-1.20

GPT-5.4 领先 2/2

评测项	GPT-5.4	Gemini 3.1 Pro Preview	分差
DeepSWE	5212 / 19极高强度思考（工具）	1219 / 19Thinking High (With Tools)	+40
SWE-Bench Pro - Public	57.7017 / 54极高强度思考（无工具）	54.2032 / 54Thinking High (With Tools)	+3.50

GPT-5.4 领先 2/2

评测项	GPT-5.4	Gemini 3.1 Pro Preview	分差
FrontierMath	47.605 / 60极高强度思考（无工具）	36.9011 / 60Thinking High (No Tools)	+10.70
FrontierMath - Tier 4	27.1011 / 80极高强度思考（无工具）	16.7020 / 80Normal (No Tools)	+10.40

Gemini 3.1 Pro Preview 领先 1/1

评测项	GPT-5.4	Gemini 3.1 Pro Preview	分差
τ²-Bench - Telecom	64.3030 / 35Normal (With Tools)	99.301 / 35Thinking High (With Tools)	-35

Gemini 3.1 Pro Preview 领先 1/1

评测项	GPT-5.4	Gemini 3.1 Pro Preview	分差
BrowseComp	82.7015 / 53极高强度思考（工具）	85.905 / 53Thinking High (With Tools + Internet)	-3.20

GPT-5.4 领先 1/1

评测项	GPT-5.4	Gemini 3.1 Pro Preview	分差
Pinch Bench	90.501 / 37Thinking (With Tools)	86.7010 / 37Thinking (With Tools)	+3.80

价格优先使用 DataLearner 配置的 API 记录；缺失项不做推测。

GPT-5.4在以下类目领先:General Knowledge (2/5)、Coding and Software Engineer (2/2)、Math and Reasoning (2/2)、Claw-style Agent Evaluation (1/1)
Gemini 3.1 Pro Preview在以下类目领先:AI Agent - Tool Usage (2/3)、Agent Level Benchmark (1/1)、AI Agent - Information Search (1/1)

15 个共同 benchmark 上，GPT-5.4 平均高出 1.84 分。

单项差距最大的 benchmark：DeepSWE — GPT-5.4 52，Gemini 3.1 Pro Preview 12（分差 +40）。

本页正文由结构化模型、价格与 benchmark 数据生成，不使用实时 LLM 撰写。