GPT-5.2vsGPT-5.1

在 16 个共同 benchmark 中，GPT-5.2 整体领先：GPT-5.2 领先 15 项，GPT-5.1 领先 1 项，持平 0 项，平均分差 +9.54。

OpenAI · 2025-12-11 · 聊天大模型

OpenAI · 2025-11-12 · 推理大模型

GPT-5.215 项(94%)(6%)1 项GPT-5.1

评测分数

按能力类目分组，每组内按分差大小排列；共 16 项。

GPT-5.2 领先 5/5

评测项	GPT-5.2	GPT-5.1	分差
ARC-AGI-2	54.2023 / 62深度思考（无工具、并行）	17.6036 / 62	+36.60
HLE	45.5041 / 172Deep Thinking (With Tools + Internet)	26.5097 / 172	+19
ARC-AGI	90.5017 / 68深度思考（无工具、并行）	72.8028 / 68	+17.70
LiveBench	48.9194 / 115Normal (No Tools)	42.65106 / 115Normal (No Tools)	+6.26
GPQA Diamond	93.209 / 187深度思考（无工具、并行）	88.1031 / 187	+5.10

GPT-5.2 领先 3/3

评测项	GPT-5.2	GPT-5.1	分差
IC SWE-Lancer(Diamond)	74.602 / 8极高强度思考（工具）	69.703 / 8Thinking High (No Tools)	+4.90
SWE-Bench Pro - Public	55.6025 / 54极高强度思考（工具）	50.8040 / 54Thinking High (No Tools)	+4.80
SWE-bench Verified	8017 / 112极高强度思考（工具）	76.3034 / 112	+3.70

GPT-5.2 领先 3/3

评测项	GPT-5.2	GPT-5.1	分差
FrontierMath	40.308 / 60极高强度思考（工具）	26.7013 / 60Thinking High (With Tools)	+13.60
FrontierMath - Tier 4	18.8016 / 80Thinking High (No Tools)	12.5029 / 80Thinking High (With Tools)	+6.30
AIME2025	1001 / 107极高强度思考（无工具）	9428 / 107	+6

GPT-5.2 领先 1/1

评测项	GPT-5.2	GPT-5.1	分差
τ²-Bench - Telecom	98.704 / 35极高强度思考（工具）	95.6014 / 35Thinking High (With Tools)	+3.10

GPT-5.2 领先 1/1

评测项	GPT-5.2	GPT-5.1	分差
BrowseComp	65.8031 / 53Deep Thinking (With Tools + Internet)	50.8043 / 53Thinking High (No Tools)	+15

GPT-5.2 领先 1/1

评测项	GPT-5.2	GPT-5.1	分差
MCP-Atlas	67.6018 / 27极高强度思考（工具）	50.1025 / 27Thinking High (With Tools)	+17.50

GPT-5.2 领先 1/1

评测项	GPT-5.2	GPT-5.1	分差
MMMU	85.901 / 29极高强度思考（无工具）	85.402 / 29	+0.50

GPT-5.1 领先 1/1

评测项	GPT-5.2	GPT-5.1	分差
Simple Bench	45.8033 / 63Thinking High (No Tools)	53.2023 / 63Thinking High (No Tools)	-7.40

价格优先使用 DataLearner 配置的 API 记录；缺失项不做推测。

GPT-5.2在以下类目领先:General Knowledge (5/5)、Coding and Software Engineer (3/3)、Math and Reasoning (3/3)、Agent Level Benchmark (1/1)、AI Agent - Information Search (1/1)、AI Agent - Tool Usage (1/1)、Multimodal Understanding (1/1)
GPT-5.1在以下类目领先:常识推理 (1/1)

16 个共同 benchmark 上，GPT-5.2 平均高出 9.54 分。

单项差距最大的 benchmark：ARC-AGI-2 — GPT-5.2 54.20，GPT-5.1 17.60（分差 +36.60）。

本页正文由结构化模型、价格与 benchmark 数据生成，不使用实时 LLM 撰写。