加载中...
加载中...
自动展示选中模型的核心信息与各评测得分,可左右滑动查看完整表格。
Anthropic于2026年2月5日发布Claude Opus 4.6,OpenAI于同年3月5日发布GPT-5.4,两款均为各自当时的旗舰产品,发布间隔四周。这个时间差不太重要,重要的是两家公司在这两款产品上押注了不同方向。
GPT-5.4做的是整合:把此前分立的GPT-5.3 Codex(代码)和通用推理能力合并进一个模型,同时首次塞入了原生计算机控制(Computer Use)、全分辨率视觉输入和Tool Search机制。OpenAI的意图很清楚——做一个"什么都能处理"的专业工作引擎,不管是写代码、分析财务文件、操控浏览器还是读图表,都用同一个模型完成。
Claude Opus 4.6没走这条路。它的Adaptive Thinking机制会根据问题复杂度自动决定投入多少推理资源,Agent Teams功能允许主实例在任务执行中派生多个独立子代理并行工作,每个子代理各有自己的上下文窗口。这个架构针对的是另一类问题:当一个任务需要跨多个文件、多个模块、长达数小时的持续执行时,单个模型的单一上下文窗口本身就会成为瓶颈。Anthropic在Opus 4.6上选择的,是把这个瓶颈作为主要攻克目标,而不是横向扩展能力覆盖面。
这个分歧是理解后面所有数据的前提。
在讨论性能之前,有个数字值得先确认:两款模型的API定价差距约为一倍。
以每天处理100万输入Token加20万输出Token来算,GPT-5.4大约是5.5美元/天,Claude Opus 4.6大约是10美元/天。在高并发生产环境下,这个差距会被放大到相当可观的量级。值得一提的是,Claude Sonnet 4.6($3/$15)在多项评测中与Opus 4.6的差距在1个百分点以内,是一个在性能对比中经常被低估的选项。订阅层面两家持平:ChatGPT Plus与Claude Pro均为$20/月,Pro档均为$200/月,区别在于具体权益,不在价格本身。
说清楚代码基准有个绕不开的问题:两家公司选择报告了SWE-Bench的不同版本,而这个选择本身就说明了一些事情。
在标准版SWE-Bench Verified上,Claude Opus 4.6报告了80.8%的单次尝试得分,提示词优化后为81.42%。OpenAI没有在这个版本上正式发布GPT-5.4的数据,独立估算约在80%附近。OpenAI选择报告的是SWE-Bench Pro——这个版本专门剥离了模型可能在训练数据中见过的题目模式,目的是测量在陌生工程问题上的实际泛化能力。GPT-5.4在此版本上得了57.7%,Claude Opus 4.6的独立估算约在45-46%,差距约28%。
这两组数据并不矛盾,它们测量的是不同的东西。前者衡量的是整体代码修复能力,后者强调的是在新颖问题上的泛化。独立研究者普遍指出:如果用同一个版本、同一个脚手架做直接对比,实际差距可能小于双方选择性发布的数据所呈现的幅度。用哪个版本的数据来得出"谁赢了编程"这个结论,其实是在做一个有倾向性的选择。
在Terminal-Bench 2.0(文件编辑、Git操作、构建系统调试)上,GPT-5.4得了75.1%,Claude Opus 4.6是65.4%,接近10个百分点的差距在基准评测中属于实质性差异,不太可能是噪声。对于DevOps和基础设施代码这类终端密集型工作,这个差距有参考价值。
GPT-5.4在OSWorld-Verified(桌面应用控制)上拿到了75.0%,人类平均水平是72.4%,GPT-5.4是目前唯一在这个基准上超过人类均值的商业模型。Claude Opus 4.6在同一项上是72.7%,大体持平人类。相比之下,GPT-5.2在这项上只有47.3%,这说明GPT-5.4在Computer Use方向上做了相当集中的投入。
Claude Opus 4.6在GPQA Diamond(博士级物理、化学、生物)上报告了91.3%,OpenAI没有在同版本上公布GPT-5.4的对应数据。在ARC-AGI-2(抗记忆的纯逻辑推理)上,Claude Opus 4.6是68.8%,较上一代Opus 4.5的37.6%接近翻倍——不过这个方向的当前领先者是Gemini 3.1 Pro(77.1%),两款模型在此项都不是最强的。
在GDPval(跨44个职业的专业工作任务)上,两家公司用了不同的报告格式:OpenAI报告GPT-5.4在83%的任务上达到专业人员水平,Anthropic则用Elo评分汇报Claude Opus 4.6在GDPval-AA上得到1,606分,领先GPT-5.2约144 Elo。格式不同导致无法直接对比,可以确认的是两款模型在这个方向上都有较强表现。在BrowseComp(多轮搜索信息定位)上,标准层级下Claude Opus 4.6以84.0%小幅领先GPT-5.4的82.7%;启用Pro级别后,Claude的得分拉升至89.3%,差距扩大至6.6个百分点。
官方基准的一个系统性问题是,每家公司都倾向于报告己方占优的测试版本。Arena.ai(原LMSYS Chatbot Arena)的运作方式不同:真实用户在不知道模型身份的情况下对两个回答进行投票,基于数百万次对比积累出Elo评分。这个机制的优势是去除了机构利益的干扰,更接近"用户实际觉得哪个更好用"这个问题的答案。
在文本Arena上,claude-opus-4-6-thinking以1502分排第一,claude-opus-4-6以1501分紧随其后。在代码Arena上,claude-opus-4-6以1548分排第一,GPT-5.4排在第六位,两者之间的Elo差距是91分。在Elo体系中,91分对应的胜率优势约为63%,不是伯仲之间的差距。综合满意度上,Claude Opus 4.6以约1503分的全球第一领先GPT-5.4约40个Elo点,多轮对话、风格控制和创意写作维度上的差异尤为明显。
WebDev Arena的数据更值得单独说。Arena.ai在2026年2月26日将这个排行榜拆分为HTML(单文档生成)和React(多文件应用)两个子类。Claude Opus 4.6在两个子类中均排名第一。GPT-5.4的排名则在第10名之外,落后于包括开源模型GLM-5(智谱AI,MIT协议,$1.00/$3.20定价)在内的多个竞争者。
这个结果是反直觉的。GPT-5.4在Terminal-Bench和OSWorld上有可测量的领先,在不少技术指标上处于第一梯队,但在直接测量前端界面输出质量的人类盲测中,它落到了10名开外。这说明技术基准的得分和用户感知的输出质量之间存在度量维度上的分裂——代码能跑通、逻辑正确,和用户看到结果后"觉得好",是两件不完全重叠的事。
GPT-5.4的Tool Search机制允许模型在需要时按需查找工具定义,而不是每次调用都把所有工具定义塞进请求里。OpenAI报告这在工具密集型工作流中降低了约47%的Token消耗,对于单次调用涉及大量工具的Agent场景,这是个直接的成本节点。
Claude Opus 4.6的Agent Teams是目前两款模型中唯一的原生多Agent实现。主实例可以派生独立子代理,每个子代理有自己的上下文窗口,通过共享任务列表和消息系统协调工作。这在超长任务(比如同时处理后端、前端和测试的软件工程场景)中能够规避单一上下文窗口的限制。OpenAI目前在产品层面没有直接对应的功能。
速度上,Claude Sonnet 4.6在基准套件中的处理速度比GPT-5.4快约17%。Claude Opus 4.6在启用16K思考预算时的处理时间超过GPT-5.4两倍,但这两种状态解决的问题复杂度不在同一量级,不是同等条件下的比较。
安全合规方面,Claude Opus 4.6的整体错误行为评分约为1.8/10,在近期Claude系列中过度拒绝率最低。Constitutional AI的设计原则在输出中有可测量的行为影响,对金融、医疗、法律等强监管行业有一定的合规参考价值。这不是性能优势,但在某些部署场景中是实际的考量维度。
"谁赢了编程"这个问题本身值得质疑,这是技术社区目前讨论最集中的议题。多个独立分析者指出,SWE-Bench Pro和SWE-Bench Verified测量的不是同一个维度,两家公司各自选择了己方占优的版本来发布,原始数字无法直接横向对比。真正有意义的对比需要同一测试平台、同一脚手架、同一Prompt,而这样的独立测试目前仍然稀缺。
另一个被广泛认同的观点是Agent脚手架的影响经常大于模型本身。SWE-Bench Pro的数据显示,对同一款模型使用优化和非优化的Agent框架,分数差距可以超过22个百分点。这意味着工程团队在实际部署时,工具链的选择有时比底层模型的选择更具决定性,这一点在讨论哪款模型"更好"时经常被忽略。
**"双模型路由"**在开发者社区有相当的实践积累。NxCode等机构记录的常见工作流是:用GPT-5.4处理原型开发、计算机控制自动化和跨域通用任务,把复杂多文件重构、大代码库分析和多Agent协作场景路由给Claude Opus 4.6。Kommunicate等企业级客服平台的做法也类似:高量标准化请求走GPT-5.4控制成本,涉及完整案例历史和合规敏感输出的复杂请求升级到Claude Opus 4.6。把两个模型视为成本-质量曲线上的两个操作点,而不是非此即彼的竞争关系,是目前这个社区里最普遍的实践取向。
开源模型的压力在2026年3月变得更加具体。MiniMax M2.5以$0.30/$1.20的API价格拿到了80.2%的SWE-Bench Verified,与Claude Opus 4.6(80.8%)只差0.6个百分点,价格差是20倍。GLM-5在WebDev Arena上超过了GPT-5.4,MIT协议加$1.00/$3.20的定价为需要数据主权或自托管的企业提供了可行路径。这个趋势的实质是:旗舰闭源模型在纯性能层面的定价溢价正在变得越来越难以靠基准分数来支撑,竞争重心已经开始向架构特性、安全合规体系和生态系统集成深度转移。
把这两款模型放在一起看,它们代表的是两种不同的能力分布策略,而不是同一条跑道上的快慢之分。
GPT-5.4的优势集中在广度上:计算机控制是目前商业模型里最强的,终端自动化领先约10个百分点,跨域知识任务覆盖面广,工具效率有可测量的Token节省,加上API定价约为对手一半——这些特征加在一起,使它成为大多数通用工作流的默认候选。
Claude Opus 4.6的优势集中在深度上:复杂代码库的长上下文处理、多Agent工程协作的原生支持、科学推理的高得分,以及在Arena.ai盲测中稳定领先的用户整体满意度。WebDev Arena的第一名是一个值得单独注意的信号——在技术层面不占全面优势的情况下,在最接近设计实践感知的维度上排名第一,说明在某类生成任务上存在技术基准之外的、与用户体验相关的质量差异。
有一个结构性问题需要放在最后说:2026年3月,MiniMax M2.5和GLM-5已经以不到Opus 4.6二十分之一的价格,在代码和Web开发评测中进入了原本由旗舰闭源模型垄断的分数段。这不是两款模型之间的竞争,而是整个旗舰模型定价体系面临的压力。GPT-5.4和Claude Opus 4.6目前在架构特性(Computer Use、Agent Teams)、安全合规体系和生态整合深度上仍有相当的差距优势,但在纯性能层面,这个护城河已经比一年前窄了很多。