Claude Sonnet 4.6vsGPT-5.2

在 8 个共同 benchmark 中,GPT-5.2 整体领先:Claude Sonnet 4.6 领先 3 项,GPT-5.2 领先 5 项,持平 0 项,平均分差 -1.55。

Anthropic
Claude Sonnet 4.6

Anthropic · 2026-02-17 · 聊天大模型

OpenAI
GPT-5.2

OpenAI · 2025-12-11 · 聊天大模型

Claude Sonnet 4.63 (38%)(63%)5 GPT-5.2

评测分数

按能力类目分组,每组内按分差大小排列;共 8 项。

General Knowledge

Claude Sonnet 4.6 领先 2/3
评测项Claude Sonnet 4.6GPT-5.2分差
ARC-AGI-258.3018 / 5954.2020 / 59深度思考(无工具、并行)+4.10
HLE4925 / 15745.5032 / 157Deep Thinking (With Tools + Internet)+3.50
GPQA Diamond89.9021 / 17893.208 / 178深度思考(无工具、并行)-3.30

Agent Level Benchmark

GPT-5.2 领先 1/1
评测项Claude Sonnet 4.6GPT-5.2分差
τ²-Bench - Telecom97.909 / 3598.704 / 35极高强度思考(工具)-0.80

AI Agent - Information Search

Claude Sonnet 4.6 领先 1/1
评测项Claude Sonnet 4.6GPT-5.2分差
BrowseComp74.7020 / 4565.8024 / 45Deep Thinking (With Tools + Internet)+8.90

Coding and Software Engineer

GPT-5.2 领先 1/1
评测项Claude Sonnet 4.6GPT-5.2分差
SWE-bench Verified79.6017 / 1088016 / 108极高强度思考(工具)-0.40

Math and Reasoning

GPT-5.2 领先 1/1
评测项Claude Sonnet 4.6GPT-5.2分差
FrontierMath - Tier 48.3034 / 80Thinking (No Tools, 16K Budget)18.8016 / 80Thinking High (No Tools)-10.50

Productivity Knowledge

GPT-5.2 领先 1/1
评测项Claude Sonnet 4.6GPT-5.2分差
GDPval-AA5711 / 2170.909 / 21Thinking High (With Tools)-13.90

规格对比

字段Claude Sonnet 4.6GPT-5.2
发布机构AnthropicOpenAI
发布时间2026-02-172025-12-11
模型类型聊天大模型聊天大模型
架构稠密模型稠密模型
参数规模暂无数据暂无数据
上下文长度1M400K
最大输出8K暂无数据

API 调用价格

价格优先使用 DataLearner 配置的 API 记录;缺失项不做推测。

价格项Claude Sonnet 4.6GPT-5.2
文本输入$3 / 1M tokens$1.75 / 1M tokens
文本输出$15 / 1M tokens$14 / 1M tokens
缓存读取$0.3 / 1M tokens$0.175 / 1M tokens
缓存写入$3.75 / 1M tokens$1.75 / 1M tokens

小结

  • Claude Sonnet 4.6在以下类目领先:General Knowledge (2/3)、AI Agent - Information Search (1/1)
  • GPT-5.2在以下类目领先:Agent Level Benchmark (1/1)、Coding and Software Engineer (1/1)、Math and Reasoning (1/1)、Productivity Knowledge (1/1)

8 个共同 benchmark 上,GPT-5.2 平均高出 1.55 分。

单项差距最大的 benchmark:GDPval-AA — Claude Sonnet 4.6 57,GPT-5.2 70.90(分差 -13.90)。

本页正文由结构化模型、价格与 benchmark 数据生成,不使用实时 LLM 撰写。