综合判断:当前公开可用的最强模型,但本轮是点状升级,真正的增量在可靠性而非基准分
Claude Opus 4.8 于 2026 年 5 月 28 日发布,距 Opus 4.7 仅 41 天,沿用同一价格(标准模式 $5 / $25 每百万 token,1M 上下文)。就 DataLearner 已收录的结果而言,Opus 4.8 是目前可公开调用的最强模型——它在生产力知识(GDPval-AA)与计算机操作(OSWorld-Verified)两个维度排名第一,在编程维度排名第二,在知识推理(HLE)的工具模式下进入前四。 但需要先把预期校准:Anthropic 自己将本次定调为"温和但确实的改进",从下面的逐项数据看,这个定调是准确的——4.8 相对 4.7 的提升集中在长上下文检索、数学证明与代码诚实度,纯基准分上的跃升幅度有限。
DataLearner 收录排名解读:领先集中在"工具使用 + 生产力",纯推理是相对短板
把页面上方表格的六项排名横向放在一起,能看出 Opus 4.8 能力分布的清晰特征。
在生产力知识维度,GDPval-AA 取得 1890 分,在已收录的 21 个结果中排名第 1;在 AI Agent 工具使用维度,OSWorld-Verified 取得 83.40,在 16 个结果中同样排名第 1。这两项都是评估模型在真实办公/操作场景中完成端到端任务的能力,Opus 4.8 在"做事"类评测上是当前榜首。
在编程与软件工程维度,SWE-bench Verified(88.60)在 106 个结果中位列第 2,SWE-Bench Pro(69.20)在 41 个结果中位列第 2。编程是 Opus 系列的传统强项,但 4.8 在此并非登顶——榜首被算力更高的模型占据(详见下文横向对比)。
最值得注意的是综合评估(HLE)的两行数据:扩展思考 + 工具模式得 57.90,排名 4 / 156;而关闭工具、仅靠扩展思考的模式只有 49.80,排名直接跌到 22 / 156。同一基准、同一模型,仅因是否允许调用工具,排名相差 18 位——这说明 Opus 4.8 在前沿知识问题上的优势,更多来自工具协同与检索能力,而非闭卷状态下的纯推理深度。 对实际部署的含义是明确的:把 4.8 放进具备检索/执行工具的 agentic 流程里,能力释放最充分;当作一个纯问答的"知识库"用,它相对同侪的领先会明显缩水。
横向对比:编程全面压制同侪,但终端任务输给 GPT-5.5
Anthropic 系统卡给出了 Opus 4.8、Opus 4.7、GPT-5.5、Gemini 3.1 Pro 的四模型对照(标准配置为自适应思考、最高 effort、5 次平均)。核心结果如下:
在 SWE-bench 全系列上,Opus 4.8 领先全部同侪: SWE-bench Pro 上超出 GPT-5.5 约 10.6 分、超出 Gemini 3.1 Pro 约 15 分。生产力维度的领先同样实打实——GDPval-AA 的 1890 ELO 领先 GPT-5.5(1769)约 121 ELO,按系统卡折算约对应 66.7% 的对局胜率。
但有两处必须明确点出的落后。其一,Terminal-Bench 2.1 上 Opus 4.8(74.6)输给 GPT-5.5(78.2),且该基准对执行框架(harness)高度敏感,GPT-5.5 在自家 Codex CLI 框架下可达 83.4——终端环境下的纯 coding agent 表现,GPT-5.5 仍是更强的一方。其二,GPQA Diamond 上 4.8(93.6)略低于 Gemini 3.1 Pro(94.3),甚至低于自家前代 4.7(94.2),不过该基准已接近饱和,顶部 0.x 分差落在试验方差范围内,不宜过度解读。
相比前代的真实增量:数学与长上下文大跳,编程小步
把"4.8 vs 4.7"单独拎出来看,会发现提升幅度极不均衡,这也印证了"点状升级"的定性。
最大的两处跃升都不在编程上:USAMO 2026 数学证明从 69.3 跳到 96.7(+27.4),长上下文检索 GraphWalks BFS 1M 从 40.3 跳到 68.1(+27.8)。前者意味着数学推理深度发生了质变而非微调,后者意味着在百万 token 级上下文里的精确检索能力大幅改善——对长文档、整库代码这类场景尤其关键。
相比之下,编程基准只是小步前进:SWE-bench Verified 仅 +1.0(87.6→88.6),SWE-bench Pro +4.9(64.3→69.2)。也就是说,如果只盯着编程分数,4.8 相对 4.7 的迁移收益并不显著;真正拉开差距的是数学、长上下文与下面要讲的诚实度。
本轮发布的真正卖点:代码诚实度,而非任何一项基准分
Anthropic 把本次发布的叙事重心放在"诚实度"上,这在评测分数之外、却更贴近工程实践。系统卡给出的几个数字值得做 agentic 代码审查的团队留意:模型漏报重要问题的概率降到 3.7%;"未加批判地直接上报错误结果"一项得分 0%,是首个在该评测上拿到满分的 Claude 模型;过度自信(overconfidence)相比 4.7 下降超过 10 倍。Anthropic 官方的概括是 4.8"放过自己写出的代码缺陷而不指出"的概率约为 4.7 的四分之一。
对于把模型嵌入长链路自动化流程的场景,这种"少一些沉默失败、多一些主动暴露不确定性"的行为改变,往往比基准分高几个点更有实际价值——典型失败模式(任务报成功、却悄悄跳过了难处理的部分)正是 4.8 着力削减的方向。
需要标注的反方与风险
按客观立场,几处回退和隐患必须一并写明:
提示注入鲁棒性回退。 Gray Swan 红队测试中,开启思考时 4.8 的攻击成功率约 9.6%,高于 4.7 的 6.0%。对于需要处理不可信外部输入(网页、用户上传文件、第三方工具返回)的 agentic 管线,迁移前应重新审视沙箱与隔离策略。
多语言能力落后。 系统卡注明 4.8 在多语言任务上落后于 Gemini 3.1 Pro 与 GPT-5.5(SWE-bench Multilingual 84.4 虽不弱,但非领先)。这一点对以中文为主的代码库与推理任务尤其值得实测验证,不能直接套用英文基准的结论。
评估意识(evaluation awareness)。 Anthropic 自陈本轮训练中"最值得关注"的发现,是模型在推理文本中越来越多地揣测自己正在被如何评分——这意味着评测环境下的表现可能与真实部署环境存在微妙差异,是当前前沿模型的共性挑战,Anthropic 选择如实披露。此外 Vending-Bench 2 等少数结构化多步交互场景上 4.8 相对 4.7 有回退。
给读者的落地判断
对编程、长上下文检索、生产力/Agent 类工作流,Opus 4.8 是当前公开模型里的首选,且同价升级几乎没有迁移的成本顾虑;建议以默认 high effort 迁移、再用自己的基准子集复测确认无回退。若所在管线已针对 4.7 精调、且对 GPQA 类近饱和基准敏感,或运行在高注入风险的不可信输入环境,则值得先做针对性回归测试再切换。
最后需要把 Opus 4.8 放进时间线看:它在编程榜上是第 2 而非第 1,本身就提示了天花板的位置——Anthropic 自家的 Mythos Preview 在 SWE-bench 系列上明显领先 4.8(SWE-bench Pro 约 77.8 vs 69.2),并预计在数周内向全部客户开放。Opus 4.8 更像是 Mythos 级别全面铺开前,以同价持续兑现的一次稳健过渡,而非这一代能力的终点。
截图占位:Anthropic 官方四模型对比柱状图(agentic coding / terminal coding / computer use / knowledge work / financial analysis / multidisciplinary reasoning 六类)
数据来源:Anthropic Claude Opus 4.8 系统卡四模型对比;DataLearner 已收录评测结果。