Claude Mythos Preview vs GPT-5.4 Pro:Anthropic 迄今最强模型,对战 OpenAI 现役旗舰
一句话结论: 在当前已有对比数据的基准测试中,Claude Mythos Preview 整体领先 GPT-5.4 Pro,尤其在推理和编程方向优势显著;GPT-5.4 Pro 在信息检索(BrowseComp)和数学方向(FrontierMath)有优势或 Mythos 暂无数据。但 Mythos 目前不对公众开放,能调用的机构极为有限。
背景:这两个模型分别是谁
Claude Mythos Preview 于 2026 年 4 月 7 日正式公布,是 Anthropic 历史上能力最强的模型,内部代号 Capybara,定位于 Opus 层级之上的全新模型等级。Anthropic 官方系统卡的描述是:「在软件工程、推理、计算机使用、知识工作和研究辅助等众多领域,其能力已实质性超越此前训练的任何模型。」
GPT-5.4 Pro 于 2026 年 3 月 5 日发布,是 OpenAI 目前面向 API 公开的最强模型,支持 100 万 token 上下文、最大输出 128K token,是当前公开可调用模型中的顶级选项。
基准测试对比
以下数据均来自 DataLearner 收录的官方评测结果,括号内为测试条件。
综合推理(HLE)
HLE 是目前最难的综合推理基准之一,Mythos 在两种测试条件下均领先:
不带工具条件下两者差距尤其大——GPT-5.4 Pro 排到了第 25 名,而 Mythos 仍在第 3 名。这说明 Mythos 的基础推理能力提升是实质性的,对工具的依赖程度更低。
科学推理(GPQA Diamond)
两个模型在这项测试上基本并列:Mythos 94.60(第1),GPT-5.4 Pro 94.40(第2),差距在统计误差范围内,可视为持平。
信息检索(BrowseComp)
这是目前 DataLearner 数据中 GPT-5.4 Pro 明确领先的一项:GPT-5.4 Pro 89.30(第1),Mythos 84.90(第3)。BrowseComp 测试模型在开放网络上检索难以定位信息的能力,差距约 4.4 个百分点。
编程与软件工程
这是 Mythos 领先幅度最显著的方向,且目前 GPT-5.4 Pro 无对应数据可比:
SWE-bench Pro 的设计刻意规避了模型可能记忆的已知解法,Mythos 在这里得分 77.8%,而 Anthropic 自家的 Opus 4.6 此前是 53.4%,跨越近 25 个百分点。
AI Agent 能力
数学方向
FrontierMath 上 GPT-5.4 Pro 得分 50%(第1),FrontierMath Tier 4 得分 38%(第1)。Mythos 目前暂无这两项数据,无法直接比较。
定价对比
能力更强,定价反而更低——这是 Mythos 相对 GPT-5.4 Pro 的一个反直觉特点:
输出 token 上,Mythos 比 GPT-5.4 Pro 标准价便宜约 31%;如果 GPT-5.4 Pro 调用超过 272K 上下文,成本差距进一步拉大。
规格差异:一处值得注意的硬限制
最大输出 token 上两者差距明显:GPT-5.4 Pro 支持最大 128,000 token 输出,Mythos Preview 目前为 8,192 token。对于需要大量生成内容的场景(长报告、大规模代码输出),这是一个实质性约束。上下文窗口方面,GPT-5.4 Pro 明确为 1M token,Mythos 尚未公布。
可用性:决定这次对比实际意义的关键变量
GPT-5.4 Pro 通过 OpenAI API 公开可用,任何开发者和企业均可调用。
Claude Mythos Preview 不向公众开放。Anthropic 通过「Project Glasswing」计划将其限定开放给约 40 个机构,12 个核心合作伙伴包括 AWS、Apple、Google、Microsoft、Cisco、CrowdStrike、NVIDIA 等,主要用途是扫描自身及开源软件的安全漏洞。
Anthropic 给出的理由是:Mythos 的漏洞挖掘和利用能力已经超出现有安全框架能够妥善管理的范围——它曾以不到 $50 的成本自主发现了存在 27 年的 OpenBSD 零日漏洞,并能完全自主完成从漏洞发现到可运行 exploit 的全过程。Anthropic 估计 6 到 18 个月内其他主要 AI 公司将发布能力相近的模型,Glasswing 是在这个窗口期进行的防御性部署。
综合判断
从基准测试看,Claude Mythos Preview 是当前评测分数最高的大语言模型,在 HLE、GPQA Diamond、编程和 Agent 方向均有明确领先或并列优势。GPT-5.4 Pro 在 BrowseComp 和数学方向(FrontierMath)有领先数据,但 Mythos 在后者暂无可比分数。
对大多数企业和开发者来说,当前实际可用的最强模型仍然是 GPT-5.4 Pro。Mythos 的意义目前更多是行业信号:它说明 Anthropic 的能力储备和公开产品之间存在一个此前并不透明的差距,且这个差距相当大。
DataLearner 将持续追踪两个模型的评测数据更新,新增基准数据录入后将在本页同步展示。

