热门大模型对比：Claude Mythos与GPT-5.4 Pro模型全面评测的详细对比

Claude Mythos Preview vs GPT-5.4 Pro：Anthropic 迄今最强模型，对战 OpenAI 现役旗舰

一句话结论： 在当前已有对比数据的基准测试中，Claude Mythos Preview 整体领先 GPT-5.4 Pro，尤其在推理和编程方向优势显著；GPT-5.4 Pro 在信息检索（BrowseComp）和数学方向（FrontierMath）有优势或 Mythos 暂无数据。但 Mythos 目前不对公众开放，能调用的机构极为有限。

背景：这两个模型分别是谁

Claude Mythos Preview 于 2026 年 4 月 7 日正式公布，是 Anthropic 历史上能力最强的模型，内部代号 Capybara，定位于 Opus 层级之上的全新模型等级。Anthropic 官方系统卡的描述是：「在软件工程、推理、计算机使用、知识工作和研究辅助等众多领域，其能力已实质性超越此前训练的任何模型。」

GPT-5.4 Pro 于 2026 年 3 月 5 日发布，是 OpenAI 目前面向 API 公开的最强模型，支持 100 万 token 上下文、最大输出 128K token，是当前公开可调用模型中的顶级选项。

基准测试对比

以下数据均来自 DataLearner 收录的官方评测结果，括号内为测试条件。

综合推理（HLE）

HLE 是目前最难的综合推理基准之一，Mythos 在两种测试条件下均领先：

测试条件	Mythos Preview	GPT-5.4 Pro
带工具	64.70（第1）	58.70（第2）
不带工具	56.80（第3）	42.70（第25）

不带工具条件下两者差距尤其大——GPT-5.4 Pro 排到了第 25 名，而 Mythos 仍在第 3 名。这说明 Mythos 的基础推理能力提升是实质性的，对工具的依赖程度更低。

科学推理（GPQA Diamond）

两个模型在这项测试上基本并列：Mythos 94.60（第1），GPT-5.4 Pro 94.40（第2），差距在统计误差范围内，可视为持平。

信息检索（BrowseComp）

这是目前 DataLearner 数据中 GPT-5.4 Pro 明确领先的一项：GPT-5.4 Pro 89.30（第1），Mythos 84.90（第3）。BrowseComp 测试模型在开放网络上检索难以定位信息的能力，差距约 4.4 个百分点。

编程与软件工程

这是 Mythos 领先幅度最显著的方向，且目前 GPT-5.4 Pro 无对应数据可比：

评测	Mythos Preview	排名
SWE-bench Verified	93.90%	第1（共94个模型）
SWE-bench Multilingual	87.30%	第1（共8个模型）
SWE-Bench Pro（Public）	77.80%	第1（共24个模型）

SWE-bench Pro 的设计刻意规避了模型可能记忆的已知解法，Mythos 在这里得分 77.8%，而 Anthropic 自家的 Opus 4.6 此前是 53.4%，跨越近 25 个百分点。

AI Agent 能力

评测	Mythos Preview	GPT-5.4 Pro
Terminal Bench 2.0	82（第1/30）	无数据
OSWorld-Verified	79.60（第1/11）	无数据

数学方向

FrontierMath 上 GPT-5.4 Pro 得分 50%（第1），FrontierMath Tier 4 得分 38%（第1）。Mythos 目前暂无这两项数据，无法直接比较。

定价对比

能力更强，定价反而更低——这是 Mythos 相对 GPT-5.4 Pro 的一个反直觉特点：

	Claude Mythos Preview	GPT-5.4 Pro（≤272K）	GPT-5.4 Pro（>272K）
输入	$25 / 1M	$30 / 1M	$60 / 1M
输出	$125 / 1M	$180 / 1M	$270 / 1M

输出 token 上，Mythos 比 GPT-5.4 Pro 标准价便宜约 31%；如果 GPT-5.4 Pro 调用超过 272K 上下文，成本差距进一步拉大。

规格差异：一处值得注意的硬限制

最大输出 token 上两者差距明显：GPT-5.4 Pro 支持最大 128,000 token 输出，Mythos Preview 目前为 8,192 token。对于需要大量生成内容的场景（长报告、大规模代码输出），这是一个实质性约束。上下文窗口方面，GPT-5.4 Pro 明确为 1M token，Mythos 尚未公布。

可用性：决定这次对比实际意义的关键变量

GPT-5.4 Pro 通过 OpenAI API 公开可用，任何开发者和企业均可调用。

Claude Mythos Preview 不向公众开放。Anthropic 通过「Project Glasswing」计划将其限定开放给约 40 个机构，12 个核心合作伙伴包括 AWS、Apple、Google、Microsoft、Cisco、CrowdStrike、NVIDIA 等，主要用途是扫描自身及开源软件的安全漏洞。

Anthropic 给出的理由是：Mythos 的漏洞挖掘和利用能力已经超出现有安全框架能够妥善管理的范围——它曾以不到 $50 的成本自主发现了存在 27 年的 OpenBSD 零日漏洞，并能完全自主完成从漏洞发现到可运行 exploit 的全过程。Anthropic 估计 6 到 18 个月内其他主要 AI 公司将发布能力相近的模型，Glasswing 是在这个窗口期进行的防御性部署。

综合判断

从基准测试看，Claude Mythos Preview 是当前评测分数最高的大语言模型，在 HLE、GPQA Diamond、编程和 Agent 方向均有明确领先或并列优势。GPT-5.4 Pro 在 BrowseComp 和数学方向（FrontierMath）有领先数据，但 Mythos 在后者暂无可比分数。

对大多数企业和开发者来说，当前实际可用的最强模型仍然是 GPT-5.4 Pro。Mythos 的意义目前更多是行业信号：它说明 Anthropic 的能力储备和公开产品之间存在一个此前并不透明的差距，且这个差距相当大。

DataLearner 将持续追踪两个模型的评测数据更新，新增基准数据录入后将在本页同步展示。

评测项	Claude Mythos Preview	GPT-5.4 Pro
GPQA Diamond 综合评估	94.60扩展思考	94.40思考水平·高
HLE 综合评估	64.70扩展思考｜工具	58.70思考水平·高｜工具
BrowseComp AI Agent - 信息收集	84.90扩展思考｜工具	89.30思考水平·高｜工具

功能与规格	Claude Mythos PreviewAnthropic	GPT-5.4 ProOpenAI
核心规格发布时间	2026-04-07	2026-03-05
上下文	—	1M
最大输出	8192	128000
MoE 架构	不支持	不支持
开源与许可代码开源	未提供	未提供
权重开源	未提供	未提供
商业授权	不开源	不开源
模态支持文本输入/输出	/	/
图片输入/输出	/	/
资料来源论文 / 报告	Introducing Claude Mythos Preview and Project Glasswing	Introducing GPT‑5.4
DataLearner 博客	Claude Mythos 是什么？Anthropic最强模型评测、安全能力与Project Glasswing详解	未提供

Claude Mythos与GPT-5.4 Pro模型全面评测的详细对比

Claude Mythos Preview vs GPT-5.4 Pro：Anthropic 迄今最强模型，对战 OpenAI 现役旗舰

背景：这两个模型分别是谁

基准测试对比

定价对比

规格差异：一处值得注意的硬限制

可用性：决定这次对比实际意义的关键变量

综合判断

性能评测对比

评测得分表格

API 价格对比

能力与规格明细