GPT-5.1vsClaude Sonnet 4.5

在 17 个共同 benchmark 中，GPT-5.1 整体领先：GPT-5.1 领先 10 项，Claude Sonnet 4.5 领先 7 项，持平 0 项，平均分差 +3.72。

OpenAI · 2025-11-12 · 推理大模型

Anthropic · 2025-09-30 · 聊天大模型

GPT-5.110 项(59%)(41%)7 项Claude Sonnet 4.5

评测分数

按能力类目分组，每组内按分差大小排列；共 17 项。

GPT-5.1 领先 3/5

评测项	GPT-5.1	Claude Sonnet 4.5	分差
LiveBench	42.65106 / 115Normal (No Tools)	53.6983 / 115Normal (No Tools)	-11.04
ARC-AGI	72.8028 / 68	63.7035 / 68	+9.10
HLE	26.5097 / 172	33.6080 / 172	-7.10
GPQA Diamond	88.1031 / 187	83.4063 / 187	+4.70
ARC-AGI-2	17.6036 / 62	13.6038 / 62	+4

GPT-5.1 领先 2/3

评测项	GPT-5.1	Claude Sonnet 4.5	分差
FrontierMath	26.7013 / 60Thinking High (With Tools)	5.2038 / 60	+21.50
FrontierMath - Tier 4	12.5029 / 80Thinking High (With Tools)	2.1056 / 80Normal (No Tools)	+10.40
AIME2025	9428 / 107	1001 / 107	-6

胶着 2/2

评测项	GPT-5.1	Claude Sonnet 4.5	分差
Terminal Bench Hard	432 / 13Thinking High (With Tools)	338 / 13	+10
τ²-Bench - Telecom	95.6014 / 35Thinking High (With Tools)	985 / 35	-2.40

胶着 2/2

评测项	GPT-5.1	Claude Sonnet 4.5	分差
MCP-Atlas	50.1025 / 27Thinking High (With Tools)	59.5021 / 27Thinking (With Tools)	-9.40
Terminal Bench 2.0	47.6038 / 47Thinking High (With Tools)	42.8042 / 47	+4.80

胶着 2/2

评测项	GPT-5.1	Claude Sonnet 4.5	分差
SWE-Bench Pro - Public	50.8040 / 54Thinking High (No Tools)	43.6047 / 54	+7.20
SWE-bench Verified	76.3034 / 112	828 / 112	-5.70

GPT-5.1 领先 1/1

评测项	GPT-5.1	Claude Sonnet 4.5	分差
BrowseComp	50.8043 / 53Thinking High (No Tools)	24.1051 / 53	+26.70

GPT-5.1 领先 1/1

评测项	GPT-5.1	Claude Sonnet 4.5	分差
MMMU	85.402 / 29	77.8015 / 29	+7.60

Claude Sonnet 4.5 领先 1/1

评测项	GPT-5.1	Claude Sonnet 4.5	分差
Simple Bench	53.2023 / 63Thinking High (No Tools)	54.3022 / 63Normal (No Tools)	-1.10

价格优先使用 DataLearner 配置的 API 记录；缺失项不做推测。

GPT-5.1在以下类目领先:General Knowledge (3/5)、Math and Reasoning (2/3)、AI Agent - Information Search (1/1)、Multimodal Understanding (1/1)
Claude Sonnet 4.5在以下类目领先:常识推理 (1/1)
胶着类目:Agent Level Benchmark、AI Agent - Tool Usage、Coding and Software Engineer

17 个共同 benchmark 上，GPT-5.1 平均高出 3.72 分。

单项差距最大的 benchmark：BrowseComp — GPT-5.1 50.80，Claude Sonnet 4.5 24.10（分差 +26.70）。

本页正文由结构化模型、价格与 benchmark 数据生成，不使用实时 LLM 撰写。