Claude Opus 4.6vsOpus 4.1

在 6 个共同 benchmark 中,Claude Opus 4.6 整体领先:Claude Opus 4.6 领先 6 项,Opus 4.1 领先 0 项,持平 0 项,平均分差 +21.82。

Anthropic
Claude Opus 4.6

Anthropic · 2026-02-05 · 推理大模型

Anthropic
Opus 4.1

Anthropic · 2025-08-06 · 推理大模型

Claude Opus 4.66 (100%)(0%)0 Opus 4.1

评测分数

按能力类目分组,每组内按分差大小排列;共 6 项。

Math and Reasoning

Claude Opus 4.6 领先 3/3
评测项Claude Opus 4.6Opus 4.1分差
FrontierMath40.707 / 60最高(无工具)5.9035 / 60Normal (No Tools)+34.80
AIME202599.797 / 106Extended (no tools)7860 / 106Extended (no tools)+21.79
FrontierMath - Tier 422.9012 / 80最高(无工具)4.2040 / 80Thinking (No Tools, 32K Budget)+18.70

Coding and Software Engineer

Claude Opus 4.6 领先 1/1
评测项Claude Opus 4.6Opus 4.1分差
SWE-bench Verified80.849 / 108Extended (with tools)74.5036 / 108Extended (with tools)+6.34

General Knowledge

Claude Opus 4.6 领先 1/1
评测项Claude Opus 4.6Opus 4.1分差
GPQA Diamond91.3114 / 178Extended (no tools)8169 / 178Extended (no tools)+10.31

Instruction Following

Claude Opus 4.6 领先 1/1
评测项Claude Opus 4.6Opus 4.1分差
IF Bench941 / 29Extended (no tools)5522 / 29Extended (with tools)+39

规格对比

字段Claude Opus 4.6Opus 4.1
发布机构AnthropicAnthropic
发布时间2026-02-052025-08-06
模型类型推理大模型推理大模型
架构稠密模型稠密模型
参数规模暂无数据暂无数据
上下文长度1000K200K
最大输出64K32K

API 调用价格

价格优先使用 DataLearner 配置的 API 记录;缺失项不做推测。

价格项Claude Opus 4.6Opus 4.1
文本输入$0.5 / 1M tokens$15 / 1M tokens
文本输出$25 / 1M tokens$75 / 1M tokens
缓存读取$0.5 / 1M tokens$1.5 / 1M tokens
缓存写入$10 / 1M tokens$18.75 / 1M tokens

小结

  • Claude Opus 4.6在以下类目领先:Math and Reasoning (3/3)、Coding and Software Engineer (1/1)、General Knowledge (1/1)、Instruction Following (1/1)

6 个共同 benchmark 上,Claude Opus 4.6 平均高出 21.82 分。

单项差距最大的 benchmark:IF Bench — Claude Opus 4.6 94,Opus 4.1 55(分差 +39)。

本页正文由结构化模型、价格与 benchmark 数据生成,不使用实时 LLM 撰写。