Claude Sonnet 4.6vsClaude Opus 4.6

在 13 个共同 benchmark 中，Claude Opus 4.6 整体领先：Claude Sonnet 4.6 领先 1 项，Claude Opus 4.6 领先 12 项，持平 0 项，平均分差 -123.30。

Anthropic · 2026-02-17 · 聊天大模型

Anthropic · 2026-02-05 · 推理大模型

Claude Sonnet 4.61 项(8%)(92%)12 项Claude Opus 4.6

评测分数

按能力类目分组，每组内按分差大小排列；共 13 项。

Claude Opus 4.6 领先 4/4

评测项	Claude Sonnet 4.6	Claude Opus 4.6	分差
ARC-AGI-2	58.3021 / 62	66.3017 / 62Extended (no tools)	-8
HLE	4932 / 172	5318 / 172Extended (with tools, internet)	-4
GPQA Diamond	89.9024 / 187	91.3115 / 187Extended (no tools)	-1.41
LiveBench	75.4712 / 115Thinking Medium (No Tools)	76.338 / 115Thinking High (No Tools)	-0.86

Claude Opus 4.6 领先 3/3

评测项	Claude Sonnet 4.6	Claude Opus 4.6	分差
MCP-Atlas	69.5017 / 27Normal (With Tools)	76.8010 / 27Deep Thinking (With Tools)	-7.30
Terminal Bench 2.0	59.1022 / 47	65.4011 / 47Extended (with tools)	-6.30
OSWorld-Verified	72.5016 / 24	72.7015 / 24Extended (with tools)	-0.20

Claude Opus 4.6 领先 1/1

评测项	Claude Sonnet 4.6	Claude Opus 4.6	分差
τ²-Bench - Telecom	97.909 / 35	99.252 / 35Extended (with tools)	-1.35

Claude Opus 4.6 领先 1/1

评测项	Claude Sonnet 4.6	Claude Opus 4.6	分差
BrowseComp	74.7027 / 53	8411 / 53Thinking (With Tools + Internet)	-9.30

Claude Sonnet 4.6 领先 1/1

评测项	Claude Sonnet 4.6	Claude Opus 4.6	分差
Pinch Bench	885 / 37Thinking (With Tools)	87.407 / 37Thinking (With Tools)	+0.60

Claude Opus 4.6 领先 1/1

评测项	Claude Sonnet 4.6	Claude Opus 4.6	分差
SWE-bench Verified	79.6018 / 112	80.8410 / 112Extended (with tools)	-1.24

Claude Opus 4.6 领先 1/1

评测项	Claude Sonnet 4.6	Claude Opus 4.6	分差
FrontierMath - Tier 4	8.3034 / 80Thinking (No Tools, 16K Budget)	22.9012 / 80最高（无工具）	-14.60

Claude Opus 4.6 领先 1/1

评测项	Claude Sonnet 4.6	Claude Opus 4.6	分差
GDPval-AA	5711 / 21	1,6063 / 21Extended (with tools, internet)	-1,549

价格优先使用 DataLearner 配置的 API 记录；缺失项不做推测。

Claude Sonnet 4.6在以下类目领先:Claw-style Agent Evaluation (1/1)
Claude Opus 4.6在以下类目领先:General Knowledge (4/4)、AI Agent - Tool Usage (3/3)、Agent Level Benchmark (1/1)、AI Agent - Information Search (1/1)、Coding and Software Engineer (1/1)、Math and Reasoning (1/1)、Productivity Knowledge (1/1)

13 个共同 benchmark 上，Claude Opus 4.6 平均高出 123.30 分。

单项差距最大的 benchmark：GDPval-AA — Claude Sonnet 4.6 57，Claude Opus 4.6 1,606（分差 -1,549）。

本页正文由结构化模型、价格与 benchmark 数据生成，不使用实时 LLM 撰写。