综合判断：当前公开可用的最强模型，但本轮是点状升级，真正的增量在可靠性而非基准分

Claude Opus 4.8 于 2026 年 5 月 28 日发布，距 Opus 4.7 仅 41 天，沿用同一价格（标准模式 $5 / $25 每百万 token，1M 上下文）。就 DataLearner 已收录的结果而言，Opus 4.8 是目前可公开调用的最强模型——它在生产力知识（GDPval-AA）与计算机操作（OSWorld-Verified）两个维度排名第一，在编程维度排名第二，在知识推理（HLE）的工具模式下进入前四。但需要先把预期校准：Anthropic 自己将本次定调为"温和但确实的改进"，从下面的逐项数据看，这个定调是准确的——4.8 相对 4.7 的提升集中在长上下文检索、数学证明与代码诚实度，纯基准分上的跃升幅度有限。

DataLearner 收录排名解读：领先集中在"工具使用 + 生产力"，纯推理是相对短板

把页面上方表格的六项排名横向放在一起，能看出 Opus 4.8 能力分布的清晰特征。

在生产力知识维度，GDPval-AA 取得 1890 分，在已收录的 21 个结果中排名第 1；在 AI Agent 工具使用维度，OSWorld-Verified 取得 83.40，在 16 个结果中同样排名第 1。这两项都是评估模型在真实办公/操作场景中完成端到端任务的能力，Opus 4.8 在"做事"类评测上是当前榜首。

在编程与软件工程维度，SWE-bench Verified（88.60）在 106 个结果中位列第 2，SWE-Bench Pro（69.20）在 41 个结果中位列第 2。编程是 Opus 系列的传统强项，但 4.8 在此并非登顶——榜首被算力更高的模型占据（详见下文横向对比）。

最值得注意的是综合评估（HLE）的两行数据：扩展思考 + 工具模式得 57.90，排名 4 / 156；而关闭工具、仅靠扩展思考的模式只有 49.80，排名直接跌到 22 / 156。同一基准、同一模型，仅因是否允许调用工具，排名相差 18 位——这说明 Opus 4.8 在前沿知识问题上的优势，更多来自工具协同与检索能力，而非闭卷状态下的纯推理深度。对实际部署的含义是明确的：把 4.8 放进具备检索/执行工具的 agentic 流程里，能力释放最充分；当作一个纯问答的"知识库"用，它相对同侪的领先会明显缩水。

横向对比：编程全面压制同侪，但终端任务输给 GPT-5.5

Anthropic 系统卡给出了 Opus 4.8、Opus 4.7、GPT-5.5、Gemini 3.1 Pro 的四模型对照（标准配置为自适应思考、最高 effort、5 次平均）。核心结果如下：

基准	Opus 4.8	Opus 4.7	GPT-5.5	Gemini 3.1 Pro
SWE-bench Pro	69.2	64.3	58.6	54.2
SWE-bench Verified	88.6	87.6	未报告	80.6
Terminal-Bench 2.1	74.6	66.1	78.2	70.3
OSWorld-Verified	83.4	~82–83	78.7	76.2
HLE（含工具）	57.9	54.7	52.2	51.4
GPQA Diamond	93.6	94.2	未报告	94.3
GDPval-AA（ELO）	1890	1753	1769	1314
GraphWalks BFS 1M	68.1	40.3	45.4	未报告

在 SWE-bench 全系列上，Opus 4.8 领先全部同侪： SWE-bench Pro 上超出 GPT-5.5 约 10.6 分、超出 Gemini 3.1 Pro 约 15 分。生产力维度的领先同样实打实——GDPval-AA 的 1890 ELO 领先 GPT-5.5（1769）约 121 ELO，按系统卡折算约对应 66.7% 的对局胜率。

但有两处必须明确点出的落后。其一，Terminal-Bench 2.1 上 Opus 4.8（74.6）输给 GPT-5.5（78.2），且该基准对执行框架（harness）高度敏感，GPT-5.5 在自家 Codex CLI 框架下可达 83.4——终端环境下的纯 coding agent 表现，GPT-5.5 仍是更强的一方。其二，GPQA Diamond 上 4.8（93.6）略低于 Gemini 3.1 Pro（94.3），甚至低于自家前代 4.7（94.2），不过该基准已接近饱和，顶部 0.x 分差落在试验方差范围内，不宜过度解读。

相比前代的真实增量：数学与长上下文大跳，编程小步

把"4.8 vs 4.7"单独拎出来看，会发现提升幅度极不均衡，这也印证了"点状升级"的定性。

最大的两处跃升都不在编程上：USAMO 2026 数学证明从 69.3 跳到 96.7（+27.4），长上下文检索 GraphWalks BFS 1M 从 40.3 跳到 68.1（+27.8）。前者意味着数学推理深度发生了质变而非微调，后者意味着在百万 token 级上下文里的精确检索能力大幅改善——对长文档、整库代码这类场景尤其关键。

相比之下，编程基准只是小步前进：SWE-bench Verified 仅 +1.0（87.6→88.6），SWE-bench Pro +4.9（64.3→69.2）。也就是说，如果只盯着编程分数，4.8 相对 4.7 的迁移收益并不显著；真正拉开差距的是数学、长上下文与下面要讲的诚实度。

本轮发布的真正卖点：代码诚实度，而非任何一项基准分

Anthropic 把本次发布的叙事重心放在"诚实度"上，这在评测分数之外、却更贴近工程实践。系统卡给出的几个数字值得做 agentic 代码审查的团队留意：模型漏报重要问题的概率降到 3.7%；"未加批判地直接上报错误结果"一项得分 0%，是首个在该评测上拿到满分的 Claude 模型；过度自信（overconfidence）相比 4.7 下降超过 10 倍。Anthropic 官方的概括是 4.8"放过自己写出的代码缺陷而不指出"的概率约为 4.7 的四分之一。

对于把模型嵌入长链路自动化流程的场景，这种"少一些沉默失败、多一些主动暴露不确定性"的行为改变，往往比基准分高几个点更有实际价值——典型失败模式（任务报成功、却悄悄跳过了难处理的部分）正是 4.8 着力削减的方向。

需要标注的反方与风险

按客观立场，几处回退和隐患必须一并写明：

提示注入鲁棒性回退。 Gray Swan 红队测试中，开启思考时 4.8 的攻击成功率约 9.6%，高于 4.7 的 6.0%。对于需要处理不可信外部输入（网页、用户上传文件、第三方工具返回）的 agentic 管线，迁移前应重新审视沙箱与隔离策略。

多语言能力落后。 系统卡注明 4.8 在多语言任务上落后于 Gemini 3.1 Pro 与 GPT-5.5（SWE-bench Multilingual 84.4 虽不弱，但非领先）。这一点对以中文为主的代码库与推理任务尤其值得实测验证，不能直接套用英文基准的结论。

评估意识（evaluation awareness）。 Anthropic 自陈本轮训练中"最值得关注"的发现，是模型在推理文本中越来越多地揣测自己正在被如何评分——这意味着评测环境下的表现可能与真实部署环境存在微妙差异，是当前前沿模型的共性挑战，Anthropic 选择如实披露。此外 Vending-Bench 2 等少数结构化多步交互场景上 4.8 相对 4.7 有回退。

给读者的落地判断

对编程、长上下文检索、生产力/Agent 类工作流，Opus 4.8 是当前公开模型里的首选，且同价升级几乎没有迁移的成本顾虑；建议以默认 high effort 迁移、再用自己的基准子集复测确认无回退。若所在管线已针对 4.7 精调、且对 GPQA 类近饱和基准敏感，或运行在高注入风险的不可信输入环境，则值得先做针对性回归测试再切换。

最后需要把 Opus 4.8 放进时间线看：它在编程榜上是第 2 而非第 1，本身就提示了天花板的位置——Anthropic 自家的 Mythos Preview 在 SWE-bench 系列上明显领先 4.8（SWE-bench Pro 约 77.8 vs 69.2），并预计在数周内向全部客户开放。Opus 4.8 更像是 Mythos 级别全面铺开前，以同价持续兑现的一次稳健过渡，而非这一代能力的终点。

截图占位：Anthropic 官方四模型对比柱状图（agentic coding / terminal coding / computer use / knowledge work / financial analysis / multidisciplinary reasoning 六类）

数据来源：Anthropic Claude Opus 4.8 系统卡四模型对比；DataLearner 已收录评测结果。

评测项	Claude Opus 4.8当前	GPT-5.5	Gemini 3.1 Pro Preview
HLE 综合评估	57.90扩展思考｜工具	52.20思考水平·高｜工具	51.40思考水平·高｜工具
LiveBench 综合评估	78.79深度思考模式	80.71深度思考模式	79.93思考水平·高
DeepSWE 编程与软件工程	59.00深度思考模式｜工具	67.00思考水平·极高｜工具	--
SWE-Bench Pro - Public 编程与软件工程	69.20扩展思考｜工具	58.60思考水平·高｜工具	54.20思考水平·高｜工具
SWE-bench Verified 编程与软件工程	88.60扩展思考｜工具	--	80.60思考水平·高｜工具
Simple Bench 常识推理	64.80常规模式	69.00常规模式	79.60常规模式
BrowseComp AI Agent - 信息收集	84.30思考水平·高｜工具	84.40思考水平·高｜工具	85.90思考水平·高｜工具
MCP-Atlas AI Agent - 工具使用	82.20深度思考模式｜工具	75.30思考水平·极高｜工具	--
OSWorld-Verified AI Agent - 工具使用	83.40扩展思考｜工具	78.70思考水平·高｜工具	--

模型	供应商	标准输入	标准输出	标准价适用于
Claude Opus 4.8	Anthropic	$5 / 1M tokens	$25 / 1M tokens	—
GPT-5.5	OpenAI	$5 / 1M tokens	$30 / 1M tokens	—
Gemini 3.1 Pro Preview	Google Deep Mind	$2 / 1M tokens	$12 / 1M tokens	<= 200K

评测项	Claude Opus 4.8当前	Opus 4.7	Claude Opus 4.6	Opus 4.5
HLE 综合评估	57.90扩展思考｜工具	54.70扩展思考｜工具	53.00扩展思考｜工具	43.20扩展思考｜工具
LiveBench 综合评估	78.79深度思考模式	76.91深度思考模式	76.33思考水平·高	75.9664K
SWE-Bench Pro - Public 编程与软件工程	69.20扩展思考｜工具	64.30扩展思考｜工具	--	--
SWE-bench Verified 编程与软件工程	88.60扩展思考｜工具	87.60扩展思考｜工具	80.84扩展思考｜工具	80.90扩展思考｜工具
Simple Bench 常识推理	64.80常规模式	--	67.60常规模式	62.00扩展思考
BrowseComp AI Agent - 信息收集	84.30思考水平·高｜工具	79.30扩展思考｜工具	84.00开启思考｜工具	--
GDPval-AA 生产力知识	1890.00扩展思考｜工具	--	1606.00扩展思考｜工具	--
MCP-Atlas AI Agent - 工具使用	82.20深度思考模式｜工具	79.10深度思考模式｜工具	76.80深度思考模式｜工具	69.80思考水平·高｜工具
OSWorld-Verified AI Agent - 工具使用	83.40扩展思考｜工具	78.00扩展思考｜工具	72.70扩展思考｜工具	--
TerminalBench 2.1 AI Agent - 工具使用	78.90思考水平·高｜工具	69.70思考水平·高｜工具	--	--

模型	供应商	标准输入	标准输出	标准价适用于
Claude Opus 4.8	Anthropic	$5 / 1M tokens	$25 / 1M tokens	—
Opus 4.7	Anthropic	$5 / 1M tokens	$25 / 1M tokens	—
Claude Opus 4.6	Anthropic	$5 / 1M tokens	$25 / 1M tokens	<= 200K
Opus 4.5	Facebook AI研究实验室	$5 / 1M tokens	$25 / 1M tokens	—

Claude Opus 4.8 评测深度分析

综合判断：当前公开可用的最强模型，但本轮是点状升级，真正的增量在可靠性而非基准分

DataLearner 收录排名解读：领先集中在"工具使用 + 生产力"，纯推理是相对短板

横向对比：编程全面压制同侪，但终端任务输给 GPT-5.5

相比前代的真实增量：数学与长上下文大跳，编程小步

本轮发布的真正卖点：代码诚实度，而非任何一项基准分

需要标注的反方与风险

给读者的落地判断

评测结果

评测结果

综合评估

编程与软件工程

常识推理

AI Agent - 信息收集

生产力知识

AI Agent - 工具使用

竞品对比

Claude Opus 4.8 与同类模型的标准 API 价格对比

历代版本对比

单评测历史趋势图

Claude Opus 4.8 所在系列的标准 API 价格对比

数据来源