GPT-5.5vsGPT-5.4

在 15 个共同 benchmark 中，GPT-5.5 整体领先：GPT-5.5 领先 14 项，GPT-5.4 领先 0 项，持平 1 项，平均分差 +6.02。

OpenAI · 2026-04-23 · 推理大模型

OpenAI · 2026-03-05 · 多模态大模型

GPT-5.514 项(93%)持平1(0%)0 项GPT-5.4

评测分数

按能力类目分组，每组内按分差大小排列；共 15 项。

GPT-5.5 领先 5/6

评测项	GPT-5.5	GPT-5.4	分差
ARC-AGI-2	852 / 62Thinking High (No Tools)	77.109 / 62Normal (No Tools)	+7.90
ARC-AGI	955 / 68极高强度思考（无工具）	93.709 / 68Normal (No Tools)	+1.30
GPQA Diamond	93.606 / 187Thinking High (No Tools)	92.8011 / 187极高强度思考（无工具）	+0.80
LiveBench	80.711 / 115Deep Thinking (No Tools)	80.282 / 115Deep Thinking (No Tools)	+0.43
HLE	52.2020 / 172Thinking High (With Tools)	52.1021 / 172极高强度思考（工具）	+0.10
ARC-AGI-3	05 / 9Thinking High (No Tools)	07 / 9Thinking High (No Tools)	持平

GPT-5.5 领先 3/3

评测项	GPT-5.5	GPT-5.4	分差
Terminal Bench 2.0	82.701 / 47Thinking High (With Tools)	75.104 / 47极高强度思考（工具）	+7.60
MCP-Atlas	75.3012 / 27极高强度思考（工具）	70.6014 / 27极高强度思考（工具）	+4.70
OSWorld-Verified	78.708 / 24Thinking High (With Tools)	7512 / 24极高强度思考（工具）	+3.70

GPT-5.5 领先 2/2

评测项	GPT-5.5	GPT-5.4	分差
DeepSWE	677 / 19极高强度思考（工具）	5212 / 19极高强度思考（工具）	+15
SWE-Bench Pro - Public	58.6013 / 54Thinking High (With Tools)	57.7017 / 54极高强度思考（无工具）	+0.90

GPT-5.5 领先 2/2

评测项	GPT-5.5	GPT-5.4	分差
FrontierMath - Tier 4	35.407 / 80Thinking High (With Tools)	27.1011 / 80极高强度思考（无工具）	+8.30
FrontierMath	51.702 / 60Thinking High (With Tools)	47.605 / 60极高强度思考（无工具）	+4.10

GPT-5.5 领先 1/1

评测项	GPT-5.5	GPT-5.4	分差
τ²-Bench - Telecom	985 / 35Thinking High (With Tools)	64.3030 / 35Normal (With Tools)	+33.70

GPT-5.5 领先 1/1

评测项	GPT-5.5	GPT-5.4	分差
BrowseComp	84.408 / 53Thinking High (With Tools + Internet)	82.7015 / 53极高强度思考（工具）	+1.70

价格优先使用 DataLearner 配置的 API 记录；缺失项不做推测。

GPT-5.5在以下类目领先:General Knowledge (5/6)、AI Agent - Tool Usage (3/3)、Coding and Software Engineer (2/2)、Math and Reasoning (2/2)、Agent Level Benchmark (1/1)、AI Agent - Information Search (1/1)

15 个共同 benchmark 上，GPT-5.5 平均高出 6.02 分。

单项差距最大的 benchmark：τ²-Bench - Telecom — GPT-5.5 98，GPT-5.4 64.30（分差 +33.70）。

本页正文由结构化模型、价格与 benchmark 数据生成，不使用实时 LLM 撰写。