DataLearner 标志DataLearnerAI
最新AI资讯
大模型排行榜
大模型评测基准
大模型列表
大模型对比
资源中心
工具
语言中文
DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
首页模型对比全球最强模型GPT-5.4与Opus 4.6的评测对比分析

全球最强模型GPT-5.4与Opus 4.6的评测对比分析

自动展示选中模型的核心信息与各评测得分,可左右滑动查看完整表格。 当前对比 2 个模型的评测数据与核心参数。

298 次浏览

Anthropic于2026年2月5日发布Claude Opus 4.6,OpenAI于同年3月5日发布GPT-5.4,两款均为各自当时的旗舰产品,发布间隔四周。这个时间差不太重要,重要的是两家公司在这两款产品上押注了不同方向。

GPT-5.4做的是整合:把此前分立的GPT-5.3 Codex(代码)和通用推理能力合并进一个模型,同时首次塞入了原生计算机控制(Computer Use)、全分辨率视觉输入和Tool Search机制。OpenAI的意图很清楚——做一个"什么都能处理"的专业工作引擎,不管是写代码、分析财务文件、操控浏览器还是读图表,都用同一个模型完成。

Claude Opus 4.6没走这条路。它的Adaptive Thinking机制会根据问题复杂度自动决定投入多少推理资源,Agent Teams功能允许主实例在任务执行中派生多个独立子代理并行工作,每个子代理各有自己的上下文窗口。这个架构针对的是另一类问题:当一个任务需要跨多个文件、多个模块、长达数小时的持续执行时,单个模型的单一上下文窗口本身就会成为瓶颈。Anthropic在Opus 4.6上选择的,是把这个瓶颈作为主要攻克目标,而不是横向扩展能力覆盖面。

这个分歧是理解后面所有数据的前提。


二、价格是最直接的差异

在讨论性能之前,有个数字值得先确认:两款模型的API定价差距约为一倍。

参数GPT-5.4Claude Opus 4.6
上下文窗口1M tokens1M tokens(Beta)
最大输出128,000 tokens131,072 tokens
API 输入$2.5 / 1M tokens$5 / 1M tokens
API 输出$15 / 1M tokens$25 / 1M tokens
扩展上下文输入$5 / 1M tokens(272K起)$10 / 1M tokens(200K起)
扩展上下文输出$22.5 / 1M tokens$37.5 / 1M tokens

以每天处理100万输入Token加20万输出Token来算,GPT-5.4大约是5.5美元/天,Claude Opus 4.6大约是10美元/天。在高并发生产环境下,这个差距会被放大到相当可观的量级。值得一提的是,Claude Sonnet 4.6($3/$15)在多项评测中与Opus 4.6的差距在1个百分点以内,是一个在性能对比中经常被低估的选项。订阅层面两家持平:ChatGPT Plus与Claude Pro均为$20/月,Pro档均为$200/月,区别在于具体权益,不在价格本身。


三、基准测试:数据分歧从哪里来

代码能力

说清楚代码基准有个绕不开的问题:两家公司选择报告了SWE-Bench的不同版本,而这个选择本身就说明了一些事情。

在标准版SWE-Bench Verified上,Claude Opus 4.6报告了80.8%的单次尝试得分,提示词优化后为81.42%。OpenAI没有在这个版本上正式发布GPT-5.4的数据,独立估算约在80%附近。OpenAI选择报告的是SWE-Bench Pro——这个版本专门剥离了模型可能在训练数据中见过的题目模式,目的是测量在陌生工程问题上的实际泛化能力。GPT-5.4在此版本上得了57.7%,Claude Opus 4.6的独立估算约在45-46%,差距约28%。

这两组数据并不矛盾,它们测量的是不同的东西。前者衡量的是整体代码修复能力,后者强调的是在新颖问题上的泛化。独立研究者普遍指出:如果用同一个版本、同一个脚手架做直接对比,实际差距可能小于双方选择性发布的数据所呈现的幅度。用哪个版本的数据来得出"谁赢了编程"这个结论,其实是在做一个有倾向性的选择。

终端与自动化

在Terminal-Bench 2.0(文件编辑、Git操作、构建系统调试)上,GPT-5.4得了75.1%,Claude Opus 4.6是65.4%,接近10个百分点的差距在基准评测中属于实质性差异,不太可能是噪声。对于DevOps和基础设施代码这类终端密集型工作,这个差距有参考价值。

GPT-5.4在OSWorld-Verified(桌面应用控制)上拿到了75.0%,人类平均水平是72.4%,GPT-5.4是目前唯一在这个基准上超过人类均值的商业模型。Claude Opus 4.6在同一项上是72.7%,大体持平人类。相比之下,GPT-5.2在这项上只有47.3%,这说明GPT-5.4在Computer Use方向上做了相当集中的投入。

推理与知识

Claude Opus 4.6在GPQA Diamond(博士级物理、化学、生物)上报告了91.3%,OpenAI没有在同版本上公布GPT-5.4的对应数据。在ARC-AGI-2(抗记忆的纯逻辑推理)上,Claude Opus 4.6是68.8%,较上一代Opus 4.5的37.6%接近翻倍——不过这个方向的当前领先者是Gemini 3.1 Pro(77.1%),两款模型在此项都不是最强的。

在GDPval(跨44个职业的专业工作任务)上,两家公司用了不同的报告格式:OpenAI报告GPT-5.4在83%的任务上达到专业人员水平,Anthropic则用Elo评分汇报Claude Opus 4.6在GDPval-AA上得到1,606分,领先GPT-5.2约144 Elo。格式不同导致无法直接对比,可以确认的是两款模型在这个方向上都有较强表现。在BrowseComp(多轮搜索信息定位)上,标准层级下Claude Opus 4.6以84.0%小幅领先GPT-5.4的82.7%;启用Pro级别后,Claude的得分拉升至89.3%,差距扩大至6.6个百分点。


四、Arena.ai 盲测:更接近真实使用感知的数据

官方基准的一个系统性问题是,每家公司都倾向于报告己方占优的测试版本。Arena.ai(原LMSYS Chatbot Arena)的运作方式不同:真实用户在不知道模型身份的情况下对两个回答进行投票,基于数百万次对比积累出Elo评分。这个机制的优势是去除了机构利益的干扰,更接近"用户实际觉得哪个更好用"这个问题的答案。

在文本Arena上,claude-opus-4-6-thinking以1502分排第一,claude-opus-4-6以1501分紧随其后。在代码Arena上,claude-opus-4-6以1548分排第一,GPT-5.4排在第六位,两者之间的Elo差距是91分。在Elo体系中,91分对应的胜率优势约为63%,不是伯仲之间的差距。综合满意度上,Claude Opus 4.6以约1503分的全球第一领先GPT-5.4约40个Elo点,多轮对话、风格控制和创意写作维度上的差异尤为明显。

WebDev Arena的数据更值得单独说。Arena.ai在2026年2月26日将这个排行榜拆分为HTML(单文档生成)和React(多文件应用)两个子类。Claude Opus 4.6在两个子类中均排名第一。GPT-5.4的排名则在第10名之外,落后于包括开源模型GLM-5(智谱AI,MIT协议,$1.00/$3.20定价)在内的多个竞争者。

这个结果是反直觉的。GPT-5.4在Terminal-Bench和OSWorld上有可测量的领先,在不少技术指标上处于第一梯队,但在直接测量前端界面输出质量的人类盲测中,它落到了10名开外。这说明技术基准的得分和用户感知的输出质量之间存在度量维度上的分裂——代码能跑通、逻辑正确,和用户看到结果后"觉得好",是两件不完全重叠的事。


五、工程架构层面的差异

GPT-5.4的Tool Search机制允许模型在需要时按需查找工具定义,而不是每次调用都把所有工具定义塞进请求里。OpenAI报告这在工具密集型工作流中降低了约47%的Token消耗,对于单次调用涉及大量工具的Agent场景,这是个直接的成本节点。

Claude Opus 4.6的Agent Teams是目前两款模型中唯一的原生多Agent实现。主实例可以派生独立子代理,每个子代理有自己的上下文窗口,通过共享任务列表和消息系统协调工作。这在超长任务(比如同时处理后端、前端和测试的软件工程场景)中能够规避单一上下文窗口的限制。OpenAI目前在产品层面没有直接对应的功能。

速度上,Claude Sonnet 4.6在基准套件中的处理速度比GPT-5.4快约17%。Claude Opus 4.6在启用16K思考预算时的处理时间超过GPT-5.4两倍,但这两种状态解决的问题复杂度不在同一量级,不是同等条件下的比较。

安全合规方面,Claude Opus 4.6的整体错误行为评分约为1.8/10,在近期Claude系列中过度拒绝率最低。Constitutional AI的设计原则在输出中有可测量的行为影响,对金融、医疗、法律等强监管行业有一定的合规参考价值。这不是性能优势,但在某些部署场景中是实际的考量维度。


六、社区的几个主要讨论方向

"谁赢了编程"这个问题本身值得质疑,这是技术社区目前讨论最集中的议题。多个独立分析者指出,SWE-Bench Pro和SWE-Bench Verified测量的不是同一个维度,两家公司各自选择了己方占优的版本来发布,原始数字无法直接横向对比。真正有意义的对比需要同一测试平台、同一脚手架、同一Prompt,而这样的独立测试目前仍然稀缺。

另一个被广泛认同的观点是Agent脚手架的影响经常大于模型本身。SWE-Bench Pro的数据显示,对同一款模型使用优化和非优化的Agent框架,分数差距可以超过22个百分点。这意味着工程团队在实际部署时,工具链的选择有时比底层模型的选择更具决定性,这一点在讨论哪款模型"更好"时经常被忽略。

**"双模型路由"**在开发者社区有相当的实践积累。NxCode等机构记录的常见工作流是:用GPT-5.4处理原型开发、计算机控制自动化和跨域通用任务,把复杂多文件重构、大代码库分析和多Agent协作场景路由给Claude Opus 4.6。Kommunicate等企业级客服平台的做法也类似:高量标准化请求走GPT-5.4控制成本,涉及完整案例历史和合规敏感输出的复杂请求升级到Claude Opus 4.6。把两个模型视为成本-质量曲线上的两个操作点,而不是非此即彼的竞争关系,是目前这个社区里最普遍的实践取向。

开源模型的压力在2026年3月变得更加具体。MiniMax M2.5以$0.30/$1.20的API价格拿到了80.2%的SWE-Bench Verified,与Claude Opus 4.6(80.8%)只差0.6个百分点,价格差是20倍。GLM-5在WebDev Arena上超过了GPT-5.4,MIT协议加$1.00/$3.20的定价为需要数据主权或自托管的企业提供了可行路径。这个趋势的实质是:旗舰闭源模型在纯性能层面的定价溢价正在变得越来越难以靠基准分数来支撑,竞争重心已经开始向架构特性、安全合规体系和生态系统集成深度转移。


七、各场景能力定位

场景优势方关键数据
复杂多文件软件工程Claude Opus 4.6SWE-Bench Verified 80.8%,长上下文一致性更高
计算机/桌面自动化GPT-5.4OSWorld 75%,超越人类均值 72.4%
终端/DevOps 自动化GPT-5.4Terminal-Bench 75.1% vs 65.4%,差距约10点
网页设计与 Web AppClaude Opus 4.6WebDev Arena 两子类均排第1,GPT-5.4 排名10名外
博士级科学推理Claude Opus 4.6GPQA Diamond 91.3%,GPT-5.4 未报告同版本
多 Agent 协作工程Claude Opus 4.6Agent Teams 为原生架构支持,GPT-5.4 无对应功能
跨域通用专业任务GPT-5.4GDPval 83%,Tool Search 覆盖广
视觉理解(图表/截图)GPT-5.4视觉基准领先,支持全分辨率输入
高并发/成本敏感场景GPT-5.4API 价格约为 Opus 4.6 的 50%
用户整体满意度Claude Opus 4.6Chatbot Arena 全球第一,综合 Elo 1503
创意写作与叙事质量Claude Opus 4.6人类评测者盲测中一致偏好,差距稳定

八、结论

把这两款模型放在一起看,它们代表的是两种不同的能力分布策略,而不是同一条跑道上的快慢之分。

GPT-5.4的优势集中在广度上:计算机控制是目前商业模型里最强的,终端自动化领先约10个百分点,跨域知识任务覆盖面广,工具效率有可测量的Token节省,加上API定价约为对手一半——这些特征加在一起,使它成为大多数通用工作流的默认候选。

Claude Opus 4.6的优势集中在深度上:复杂代码库的长上下文处理、多Agent工程协作的原生支持、科学推理的高得分,以及在Arena.ai盲测中稳定领先的用户整体满意度。WebDev Arena的第一名是一个值得单独注意的信号——在技术层面不占全面优势的情况下,在最接近设计实践感知的维度上排名第一,说明在某类生成任务上存在技术基准之外的、与用户体验相关的质量差异。

有一个结构性问题需要放在最后说:2026年3月,MiniMax M2.5和GLM-5已经以不到Opus 4.6二十分之一的价格,在代码和Web开发评测中进入了原本由旗舰闭源模型垄断的分数段。这不是两款模型之间的竞争,而是整个旗舰模型定价体系面临的压力。GPT-5.4和Claude Opus 4.6目前在架构特性(Computer Use、Agent Teams)、安全合规体系和生态整合深度上仍有相当的差距优势,但在纯性能层面,这个护城河已经比一年前窄了很多。

OpenAI

GPT-5.4

OpenAI

发布时间
2026-03-05
上下文
1M
参数量
未提供
最大输出
128,000 tokens
查看详情·在线体验

能力分布概览

每条轴代表一个评测领域的平均水平,并统一映射到 100 分雷达坐标。

视图: 非并行模式平均·6 个维度
GPT-5.4

相对优势: 数学推理 +7.3 / 相对落后: Agent能力评测 -17.7

Claude Opus 4.6

相对优势: Agent能力评测 +17.7 / 相对落后: 数学推理 -7.3

计算口径:同一模型在同一 benchmark 下先平均当前模式范围内的所有分数,不取最高分;再按评测领域对这些 benchmark 分数求平均。只纳入至少两个模型有数据的 benchmark,缺项不按 0 分处理。

综合领先

GPT-5.4 · 74.28

单项最高

Claude Opus 4.6 · τ²-Bench - Telecom 99.25

模态覆盖

GPT-5.4 · 2 种模态

正面对比

GPT-5.4
6
4
Claude Opus 4.6
领先持平落后

10

评测基准

6

领先项

4

落后项

+2.30

平均分差

性能评测对比

支持不同模式与工具的榜单对比。

数据优先来自官方发布(GitHub、Hugging Face、论文),其次为评测基准官方结果,最后为第三方评测机构数据。 了解数据收集方法

思考模式
工具使用
联网能力
筛选: 最佳可用·2 个模式 · 10 评测基准
图表加载中...

评测得分表格

完整列出各模型/模式的评测得分,便于横向比较。

10 项可对比评测得分汇总。每个模型展示最佳得分,模式在分数下方标注。

评测项GPT-5.4Claude Opus 4.6
ARC-AGI
综合评估
93.70常规模式
92.00扩展思考
ARC-AGI-2
综合评估
77.10常规模式
66.30扩展思考
HLE
综合评估
52.10思考水平·极高 | 工具
53.00扩展思考 | 工具
FrontierMath - Tier 4
数学推理
27.10思考水平·极高
22.90思考水平·高
τ²-Bench - Telecom
Agent能力评测
98.90思考水平·极高 | 工具
99.25扩展思考 | 工具
BrowseComp
AI Agent - 信息收集
82.70思考水平·极高 | 工具
84.00开启思考 | 工具
MCP-Atlas
AI Agent - 工具使用
70.60思考水平·极高 | 工具
76.80深度思考模式 | 工具
OSWorld-Verified
AI Agent - 工具使用
75.00思考水平·极高 | 工具
72.70扩展思考 | 工具
Terminal Bench 2.0
AI Agent - 工具使用
75.10思考水平·极高 | 工具
65.40扩展思考 | 工具
Pinch Bench
OpenClaw智能体能力综合测评
90.50开启思考 | 工具
87.40开启思考 | 工具

API 价格对比

输入输出 token 价格并排展示

能力与规格明细

是否 MoE、商业授权、模态支持等附加能力对比。

功能与规格
GPT-5.4OpenAI
Claude Opus 4.6Anthropic
核心规格发布时间
2026-03-052026-02-05
上下文
1M1000K
最大输出
12800065536
MoE 架构
不支持不支持
开源与许可代码开源
未提供未提供
权重开源
未提供未提供
商业授权
不开源不开源
模态支持文本 输入/输出
/
/
图片 输入/输出
/
/
资料来源论文 / 报告
Introducing GPT‑5.4Introducing Claude Opus 4.6
Anthropic

Claude Opus 4.6

Anthropic

发布时间
2026-02-05
上下文
1000K
参数量
未提供
最大输出
65,536 tokens
查看详情·在线体验