GPT-5.4 ProvsGemini 3.1 Pro Preview

在 6 个共同 benchmark 中,GPT-5.4 Pro 整体领先:GPT-5.4 Pro 领先 6 项,Gemini 3.1 Pro Preview 领先 0 项,持平 0 项,平均分差 +8.48。

OpenAI
GPT-5.4 Pro

OpenAI · 2026-03-05 · 多模态大模型

Google Deep Mind
Gemini 3.1 Pro Preview

Google Deep Mind · 2026-02-20 · 多模态大模型

GPT-5.4 Pro6 (100%)(0%)0 Gemini 3.1 Pro Preview

评测分数

按能力类目分组,每组内按分差大小排列;共 6 项。

General Knowledge

GPT-5.4 Pro 领先 3/3
评测项GPT-5.4 ProGemini 3.1 Pro Preview分差
HLE58.703 / 157Thinking High (With Tools)51.4015 / 157Thinking High (With Tools)+7.30
ARC-AGI-283.306 / 59Thinking High (No Tools)77.107 / 59Thinking High (No Tools)+6.20
GPQA Diamond94.402 / 178Thinking High (No Tools)94.303 / 178Thinking High (No Tools)+0.10

Math and Reasoning

GPT-5.4 Pro 领先 2/2
评测项GPT-5.4 ProGemini 3.1 Pro Preview分差
FrontierMath - Tier 437.505 / 80Normal (With Tools + Internet)16.7020 / 80Normal (No Tools)+20.80
FrontierMath503 / 60Thinking High (No Tools)36.9011 / 60Thinking High (No Tools)+13.10

AI Agent - Information Search

GPT-5.4 Pro 领先 1/1
评测项GPT-5.4 ProGemini 3.1 Pro Preview分差
BrowseComp89.302 / 45Thinking High (With Tools)85.903 / 45Thinking High (With Tools + Internet)+3.40

规格对比

字段GPT-5.4 ProGemini 3.1 Pro Preview
发布机构OpenAIGoogle Deep Mind
发布时间2026-03-052026-02-20
模型类型多模态大模型多模态大模型
架构稠密模型稠密模型
参数规模暂无数据暂无数据
上下文长度1M1M
最大输出125K32K

API 调用价格

价格优先使用 DataLearner 配置的 API 记录;缺失项不做推测。

价格项GPT-5.4 ProGemini 3.1 Pro Preview
文本输入$30 / 1M tokens$2 / 1M tokens
文本输出$180 / 1M tokens$12 / 1M tokens

小结

  • GPT-5.4 Pro在以下类目领先:General Knowledge (3/3)、Math and Reasoning (2/2)、AI Agent - Information Search (1/1)

6 个共同 benchmark 上,GPT-5.4 Pro 平均高出 8.48 分。

单项差距最大的 benchmark:FrontierMath - Tier 4 — GPT-5.4 Pro 37.50,Gemini 3.1 Pro Preview 16.70(分差 +20.80)。

本页正文由结构化模型、价格与 benchmark 数据生成,不使用实时 LLM 撰写。