Claude Sonnet 4.6vsGPT-5.2

Claude Sonnet 4.6 与 GPT-5.2 在 10 个共同 benchmark 中整体接近：Claude Sonnet 4.6 领先 5 项，GPT-5.2 领先 5 项，持平 0 项，平均分差 +1.61。

Anthropic · 2026-02-17 · 聊天大模型

OpenAI · 2025-12-11 · 聊天大模型

Claude Sonnet 4.65 项(50%)(50%)5 项GPT-5.2

评测分数

按能力类目分组，每组内按分差大小排列；共 10 项。

Claude Sonnet 4.6 领先 3/4

评测项	Claude Sonnet 4.6	GPT-5.2	分差
LiveBench	75.4712 / 115Thinking Medium (No Tools)	48.9194 / 115Normal (No Tools)	+26.56
ARC-AGI-2	58.3021 / 62	54.2023 / 62深度思考（无工具、并行）	+4.10
HLE	4932 / 172	45.5041 / 172Deep Thinking (With Tools + Internet)	+3.50
GPQA Diamond	89.9024 / 187	93.209 / 187深度思考（无工具、并行）	-3.30

GPT-5.2 领先 1/1

评测项	Claude Sonnet 4.6	GPT-5.2	分差
τ²-Bench - Telecom	97.909 / 35	98.704 / 35极高强度思考（工具）	-0.80

Claude Sonnet 4.6 领先 1/1

评测项	Claude Sonnet 4.6	GPT-5.2	分差
BrowseComp	74.7027 / 53	65.8031 / 53Deep Thinking (With Tools + Internet)	+8.90

Claude Sonnet 4.6 领先 1/1

评测项	Claude Sonnet 4.6	GPT-5.2	分差
MCP-Atlas	69.5017 / 27Normal (With Tools)	67.6018 / 27极高强度思考（工具）	+1.90

GPT-5.2 领先 1/1

评测项	Claude Sonnet 4.6	GPT-5.2	分差
SWE-bench Verified	79.6018 / 112	8017 / 112极高强度思考（工具）	-0.40

GPT-5.2 领先 1/1

评测项	Claude Sonnet 4.6	GPT-5.2	分差
FrontierMath - Tier 4	8.3034 / 80Thinking (No Tools, 16K Budget)	18.8016 / 80Thinking High (No Tools)	-10.50

GPT-5.2 领先 1/1

评测项	Claude Sonnet 4.6	GPT-5.2	分差
GDPval-AA	5711 / 21	70.909 / 21Thinking High (With Tools)	-13.90

价格优先使用 DataLearner 配置的 API 记录；缺失项不做推测。

Claude Sonnet 4.6在以下类目领先:General Knowledge (3/4)、AI Agent - Information Search (1/1)、AI Agent - Tool Usage (1/1)
GPT-5.2在以下类目领先:Agent Level Benchmark (1/1)、Coding and Software Engineer (1/1)、Math and Reasoning (1/1)、Productivity Knowledge (1/1)

10 个共同 benchmark 上，Claude Sonnet 4.6 平均高出 1.61 分。

单项差距最大的 benchmark：LiveBench — Claude Sonnet 4.6 75.47，GPT-5.2 48.91（分差 +26.56）。

本页正文由结构化模型、价格与 benchmark 数据生成，不使用实时 LLM 撰写。