Claude Opus 4.7 评测详情
Claude Opus 4.7 当前已收录的代表性评测结果包括 SWE-bench Verified(2 / 96,得分 87.60)、GPQA Diamond(4 / 166,得分 94.20)、HLE(5 / 131,得分 54.70)。本页还提供与 2 个竞品模型及 3 个前代或同系列模型的对比,在有数据时会展示性能和价格视图。并附有 1 个数据来源链接供参考。
评测结果
Claude Opus 4.7
评测结果
竞品对比
Claude Opus 4.7 与同类主流模型的评测得分对比
评测类别:
Claude Opus 4.7:
扩展 + 工具
扩展
GPT-5.4:
极高 + 工具
极高
Gemini 3.1 Pro Preview:
高 + 工具
高 + 工具
高
评测得分对比
8 项可对比评测得分汇总。每个单元格显示当前筛选下该 benchmark 的最佳模式。
| 评测项 | Claude Opus 4.7(本模型) | GPT-5.4 | Gemini 3.1 Pro Preview |
|---|---|---|---|
GPQA Diamond 综合评估 | 94.20 扩展思考 | 92.80 思考水平 · 超高 | 94.30 思考水平 · 高 |
HLE 综合评估 | 54.70 扩展思考工具 | 52.10 思考水平 · 超高工具 | 51.40 思考水平 · 高工具 |
MMLU 综合评估 | 91.50 常规 | -- | 92.60 思考水平 · 高 |
SWE-Bench Pro - Public 编程与软件工程 | 64.30 扩展思考工具 | 57.70 思考水平 · 超高 | 54.20 思考水平 · 高工具 |
SWE-bench Verified 编程与软件工程 | 87.60 扩展思考工具 | -- | 80.60 思考水平 · 高工具 |
BrowseComp AI Agent - 信息收集 | 79.30 扩展思考工具 | 82.70 思考水平 · 超高工具 | 85.90 思考水平 · 高工具联网 |
OSWorld-Verified AI Agent - 工具使用 | 78.00 扩展思考工具 | 75.00 思考水平 · 超高工具 | -- |
Terminal Bench 2.0 AI Agent - 工具使用 | 69.40 扩展思考工具 | 75.10 思考水平 · 超高工具 | 68.50 思考水平 · 高工具 |
Claude Opus 4.7 与同类模型的标准 API 价格对比
按模型并排展示标准文本输入价与输出价;若存在超长上下文加价,仅保留阈值内标准价,并在下方说明适用范围。
数据来源:DataLearnerAI,展示默认供应商的标准文本价格。 · USD / 1M tokens
若存在上下文阈值,图中标准价仅适用于以下范围:
GPT-5.4: 标准价适用于 <= 272K
Gemini 3.1 Pro Preview: 标准价适用于 <= 200K
| 模型 | 供应商 | 标准输入 | 标准输出 | 标准价适用于 |
|---|---|---|---|---|
GPT-5.4 | OpenAI | $2.5 / 1M tokens | $15 / 1M tokens | <= 272K |
Gemini 3.1 Pro Preview | Google Deep Mind | $2 / 1M tokens | $12 / 1M tokens | <= 200K |
历代版本对比
Claude Opus 4.7 系列各版本的评测成绩纵向对比
评测类别:
Claude Opus 4.7:
扩展 + 工具
扩展
Claude Opus 4.6:
扩展 + 工具
扩展 + 工具
扩展
Claude Opus 4.5:
thinking
thinking + 使用工具 + 工具
Claude Opus 4.1:
thinking
评测得分对比
7 项可对比评测得分汇总。每个单元格显示当前筛选下该 benchmark 的最佳模式。
| 评测项 | Claude Opus 4.7(本模型) | Claude Opus 4.6 | Claude Opus 4.5 | Claude Opus 4.1 |
|---|---|---|---|---|
GPQA Diamond 综合评估 | 94.20 扩展思考 | 91.31 扩展思考 | 87.00 思考 | 81.00 思考 |
HLE 综合评估 | 54.70 扩展思考工具 | 53.00 扩展思考工具联网 | 43.20 思考工具 | -- |
MMLU 综合评估 | 91.50 常规 | 91.05 扩展思考 | -- | -- |
SWE-bench Verified 编程与软件工程 | 87.60 扩展思考工具 | 80.84 扩展思考工具 | 80.90 思考 | 79.40 并行 · 思考工具 |
BrowseComp AI Agent - 信息收集 | 79.30 扩展思考工具 | 84.00 思考工具联网 | -- | -- |
OSWorld-Verified AI Agent - 工具使用 | 78.00 扩展思考工具 | 72.70 扩展思考工具 | -- | -- |
Terminal Bench 2.0 AI Agent - 工具使用 | 69.40 扩展思考工具 | 65.40 扩展思考工具 | 59.30 思考工具 | -- |
Claude Opus 4.7 所在系列的标准 API 价格对比
按模型并排展示标准文本输入价与输出价;若存在超长上下文加价,仅保留阈值内标准价,并在下方说明适用范围。
数据来源:DataLearnerAI,展示默认供应商的标准文本价格。 · USD / 1M tokens
若存在上下文阈值,图中标准价仅适用于以下范围:
Claude Opus 4.6: 标准价适用于 <= 200K
| 模型 | 供应商 | 标准输入 | 标准输出 | 标准价适用于 |
|---|---|---|---|---|
Claude Opus 4.6 | Anthropic | $5 / 1M tokens | $25 / 1M tokens | <= 200K |
Claude Opus 4.5 | — | 5 美元/100 万tokens | 25 美元/100 万tokens | — |
Claude Opus 4.1 | — | 15 美元/ 100万tokens | 75 美元/100万tokens | — |
系列版本评测总览
查看 Claude Opus 4.7 系列各版本在主要评测上的整体得分,点击任意评测行可查看各推理模式的细分结果。
提示:点击任意分数单元格可切换下方关系图。
| 评测项 | Claude Opus 4.12025/8/6 | Claude Opus 4.52025/11/25 | Claude Opus 4.62026/2/5 | Claude Opus 4.72026/4/16 |
|---|---|---|---|---|
单评测模式关系图
当前查看:GPQA Diamond · 综合评估
选择评测