DataLearner 标志DataLearnerAI
最新AI资讯
大模型排行榜
大模型评测基准
大模型列表
大模型对比
资源中心
工具
语言中文
DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
页面导航
目录
大模型列表Claude Opus 4.7评测分析

Claude Opus 4.7 评测详情

Claude Opus 4.7 当前已收录的代表性评测结果包括 SWE-bench Verified(2 / 96,得分 87.60)、GPQA Diamond(4 / 166,得分 94.20)、HLE(5 / 131,得分 54.70)。本页还提供与 2 个竞品模型及 3 个前代或同系列模型的对比,在有数据时会展示性能和价格视图。并附有 1 个数据来源链接供参考。

评测结果

Claude Opus 4.7

评测结果

思考模式
全部常规思考
思考模式细分 (1)
全部默认 (扩展)
工具使用
全部使用工具不使用工具

综合评估

共 3 项评测
评测名称 / 模式
得分
排名/总数
GPQA Diamond
扩展
94.20
4 / 166
HLE
扩展
46.90
20 / 131
HLE
扩展工具
54.70
5 / 131

编程与软件工程

共 2 项评测
评测名称 / 模式
得分
排名/总数
SWE-bench Verified
扩展工具
87.60
2 / 96
SWE-Bench Pro - Public
扩展工具
64.30
2 / 26

AI Agent - 信息收集

共 1 项评测
评测名称 / 模式
得分
排名/总数
BrowseComp
扩展工具
79.30
6 / 36

AI Agent - 工具使用

共 2 项评测
评测名称 / 模式
得分
排名/总数
OSWorld-Verified
扩展工具
78
2 / 12
Terminal Bench 2.0
扩展工具
69.40
4 / 33
与其他模型对比

竞品对比

Claude Opus 4.7 与同类主流模型的评测得分对比

Claude Opus 4.7(当前模型)GPT-5.4Gemini 3.1 Pro Preview
评测类别:
Claude Opus 4.7:
扩展 + 工具
扩展
GPT-5.4:
极高 + 工具
极高
Gemini 3.1 Pro Preview:
高 + 工具
高 + 工具
高

评测得分对比

8 项可对比评测得分汇总。每个单元格显示当前筛选下该 benchmark 的最佳模式。

评测项Claude Opus 4.7(本模型)GPT-5.4Gemini 3.1 Pro Preview
GPQA Diamond
综合评估
94.20
扩展思考
92.80
思考水平 · 超高
94.30
思考水平 · 高
HLE
综合评估
54.70
扩展思考工具
52.10
思考水平 · 超高工具
51.40
思考水平 · 高工具
MMLU
综合评估
91.50
常规
--
92.60
思考水平 · 高
SWE-Bench Pro - Public
编程与软件工程
64.30
扩展思考工具
57.70
思考水平 · 超高
54.20
思考水平 · 高工具
SWE-bench Verified
编程与软件工程
87.60
扩展思考工具
--
80.60
思考水平 · 高工具
BrowseComp
AI Agent - 信息收集
79.30
扩展思考工具
82.70
思考水平 · 超高工具
85.90
思考水平 · 高工具联网
OSWorld-Verified
AI Agent - 工具使用
78.00
扩展思考工具
75.00
思考水平 · 超高工具
--
Terminal Bench 2.0
AI Agent - 工具使用
69.40
扩展思考工具
75.10
思考水平 · 超高工具
68.50
思考水平 · 高工具

Claude Opus 4.7 与同类模型的标准 API 价格对比

按模型并排展示标准文本输入价与输出价;若存在超长上下文加价,仅保留阈值内标准价,并在下方说明适用范围。

数据来源:DataLearnerAI,展示默认供应商的标准文本价格。 · USD / 1M tokens

若存在上下文阈值,图中标准价仅适用于以下范围:

GPT-5.4: 标准价适用于 <= 272K
Gemini 3.1 Pro Preview: 标准价适用于 <= 200K
模型供应商标准输入标准输出标准价适用于
GPT-5.4
OpenAI$2.5 / 1M tokens$15 / 1M tokens<= 272K
Gemini 3.1 Pro Preview
Google Deep Mind$2 / 1M tokens$12 / 1M tokens<= 200K

历代版本对比

Claude Opus 4.7 系列各版本的评测成绩纵向对比

Claude Opus 4.7(当前模型)Claude Opus 4.6Claude Opus 4.5Claude Opus 4.1
评测类别:
Claude Opus 4.7:
扩展 + 工具
扩展
Claude Opus 4.6:
扩展 + 工具
扩展 + 工具
扩展
Claude Opus 4.5:
thinking
thinking + 使用工具 + 工具
Claude Opus 4.1:
thinking

评测得分对比

7 项可对比评测得分汇总。每个单元格显示当前筛选下该 benchmark 的最佳模式。

评测项Claude Opus 4.7(本模型)Claude Opus 4.6Claude Opus 4.5Claude Opus 4.1
GPQA Diamond
综合评估
94.20
扩展思考
91.31
扩展思考
87.00
思考
81.00
思考
HLE
综合评估
54.70
扩展思考工具
53.00
扩展思考工具联网
43.20
思考工具
--
MMLU
综合评估
91.50
常规
91.05
扩展思考
--
--
SWE-bench Verified
编程与软件工程
87.60
扩展思考工具
80.84
扩展思考工具
80.90
思考
79.40
并行 · 思考工具
BrowseComp
AI Agent - 信息收集
79.30
扩展思考工具
84.00
思考工具联网
--
--
OSWorld-Verified
AI Agent - 工具使用
78.00
扩展思考工具
72.70
扩展思考工具
--
--
Terminal Bench 2.0
AI Agent - 工具使用
69.40
扩展思考工具
65.40
扩展思考工具
59.30
思考工具
--

Claude Opus 4.7 所在系列的标准 API 价格对比

按模型并排展示标准文本输入价与输出价;若存在超长上下文加价,仅保留阈值内标准价,并在下方说明适用范围。

数据来源:DataLearnerAI,展示默认供应商的标准文本价格。 · USD / 1M tokens

若存在上下文阈值,图中标准价仅适用于以下范围:

Claude Opus 4.6: 标准价适用于 <= 200K
模型供应商标准输入标准输出标准价适用于
Claude Opus 4.6
Anthropic$5 / 1M tokens$25 / 1M tokens<= 200K
Claude Opus 4.5
—5 美元/100 万tokens25 美元/100 万tokens—
Claude Opus 4.1
—15 美元/ 100万tokens75 美元/100万tokens—

系列版本评测总览

查看 Claude Opus 4.7 系列各版本在主要评测上的整体得分,点击任意评测行可查看各推理模式的细分结果。

提示:点击任意分数单元格可切换下方关系图。

默认显示可比评测>60%(4/7)

评测项
Claude Opus 4.12025/8/6
Claude Opus 4.52025/11/25
Claude Opus 4.62026/2/5
Claude Opus 4.72026/4/16
综合评估
综合评估
编程与软件工程
AI Agent - 工具使用

单评测模式关系图

当前查看:GPQA Diamond · 综合评估

选择评测
常规常规 + 工具推理推理 + 工具深度推理深度推理 + 工具

横轴为模型与发布时间,纵轴为分数;同代不同模式的散点以虚线连接。

数据来源

anthropic.com