GPT-5.4vsGPT-5.2

在 11 个共同 benchmark 中，GPT-5.4 整体领先：GPT-5.4 领先 9 项，GPT-5.2 领先 2 项，持平 0 项，平均分差 +6.08。

OpenAI · 2026-03-05 · 多模态大模型

OpenAI · 2025-12-11 · 聊天大模型

GPT-5.49 项(82%)(18%)2 项GPT-5.2

评测分数

按能力类目分组，每组内按分差大小排列；共 11 项。

GPT-5.4 领先 4/5

评测项	GPT-5.4	GPT-5.2	分差
LiveBench	80.282 / 115Deep Thinking (No Tools)	48.9194 / 115Normal (No Tools)	+31.37
ARC-AGI-2	77.109 / 62Normal (No Tools)	54.2023 / 62深度思考（无工具、并行）	+22.90
HLE	52.1021 / 172极高强度思考（工具）	45.5041 / 172Deep Thinking (With Tools + Internet)	+6.60
ARC-AGI	93.709 / 68Normal (No Tools)	90.5017 / 68深度思考（无工具、并行）	+3.20
GPQA Diamond	92.8011 / 187极高强度思考（无工具）	93.209 / 187深度思考（无工具、并行）	-0.40

GPT-5.4 领先 2/2

评测项	GPT-5.4	GPT-5.2	分差
FrontierMath - Tier 4	27.1011 / 80极高强度思考（无工具）	18.8016 / 80Thinking High (No Tools)	+8.30
FrontierMath	47.605 / 60极高强度思考（无工具）	40.308 / 60极高强度思考（工具）	+7.30

GPT-5.2 领先 1/1

评测项	GPT-5.4	GPT-5.2	分差
τ²-Bench - Telecom	64.3030 / 35Normal (With Tools)	98.704 / 35极高强度思考（工具）	-34.40

GPT-5.4 领先 1/1

评测项	GPT-5.4	GPT-5.2	分差
BrowseComp	82.7015 / 53极高强度思考（工具）	65.8031 / 53Deep Thinking (With Tools + Internet)	+16.90

GPT-5.4 领先 1/1

评测项	GPT-5.4	GPT-5.2	分差
MCP-Atlas	70.6014 / 27极高强度思考（工具）	67.6018 / 27极高强度思考（工具）	+3

GPT-5.4 领先 1/1

评测项	GPT-5.4	GPT-5.2	分差
SWE-Bench Pro - Public	57.7017 / 54极高强度思考（无工具）	55.6025 / 54极高强度思考（工具）	+2.10

价格优先使用 DataLearner 配置的 API 记录；缺失项不做推测。

GPT-5.4在以下类目领先:General Knowledge (4/5)、Math and Reasoning (2/2)、AI Agent - Information Search (1/1)、AI Agent - Tool Usage (1/1)、Coding and Software Engineer (1/1)
GPT-5.2在以下类目领先:Agent Level Benchmark (1/1)

11 个共同 benchmark 上，GPT-5.4 平均高出 6.08 分。

单项差距最大的 benchmark：τ²-Bench - Telecom — GPT-5.4 64.30，GPT-5.2 98.70（分差 -34.40）。

本页正文由结构化模型、价格与 benchmark 数据生成，不使用实时 LLM 撰写。