DataLearner 标志DataLearnerAI
最新AI资讯
大模型排行榜
大模型评测基准
大模型列表
大模型对比
资源中心
工具
语言中文
DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
首页模型对比Claude Mythos与GPT-5.4 Pro模型全面评测的详细对比

Claude Mythos与GPT-5.4 Pro模型全面评测的详细对比

自动展示选中模型的核心信息与各评测得分,可左右滑动查看完整表格。 当前对比 2 个模型的评测数据与核心参数。

66 次浏览

Claude Mythos Preview vs GPT-5.4 Pro:Anthropic 迄今最强模型,对战 OpenAI 现役旗舰

一句话结论: 在当前已有对比数据的基准测试中,Claude Mythos Preview 整体领先 GPT-5.4 Pro,尤其在推理和编程方向优势显著;GPT-5.4 Pro 在信息检索(BrowseComp)和数学方向(FrontierMath)有优势或 Mythos 暂无数据。但 Mythos 目前不对公众开放,能调用的机构极为有限。


背景:这两个模型分别是谁

Claude Mythos Preview 于 2026 年 4 月 7 日正式公布,是 Anthropic 历史上能力最强的模型,内部代号 Capybara,定位于 Opus 层级之上的全新模型等级。Anthropic 官方系统卡的描述是:「在软件工程、推理、计算机使用、知识工作和研究辅助等众多领域,其能力已实质性超越此前训练的任何模型。」

GPT-5.4 Pro 于 2026 年 3 月 5 日发布,是 OpenAI 目前面向 API 公开的最强模型,支持 100 万 token 上下文、最大输出 128K token,是当前公开可调用模型中的顶级选项。


基准测试对比

以下数据均来自 DataLearner 收录的官方评测结果,括号内为测试条件。

综合推理(HLE)

HLE 是目前最难的综合推理基准之一,Mythos 在两种测试条件下均领先:

测试条件Mythos PreviewGPT-5.4 Pro
带工具64.70(第1)58.70(第2)
不带工具56.80(第3)42.70(第25)

不带工具条件下两者差距尤其大——GPT-5.4 Pro 排到了第 25 名,而 Mythos 仍在第 3 名。这说明 Mythos 的基础推理能力提升是实质性的,对工具的依赖程度更低。

科学推理(GPQA Diamond)

两个模型在这项测试上基本并列:Mythos 94.60(第1),GPT-5.4 Pro 94.40(第2),差距在统计误差范围内,可视为持平。

信息检索(BrowseComp)

这是目前 DataLearner 数据中 GPT-5.4 Pro 明确领先的一项:GPT-5.4 Pro 89.30(第1),Mythos 84.90(第3)。BrowseComp 测试模型在开放网络上检索难以定位信息的能力,差距约 4.4 个百分点。

编程与软件工程

这是 Mythos 领先幅度最显著的方向,且目前 GPT-5.4 Pro 无对应数据可比:

评测Mythos Preview排名
SWE-bench Verified93.90%第1(共94个模型)
SWE-bench Multilingual87.30%第1(共8个模型)
SWE-Bench Pro(Public)77.80%第1(共24个模型)

SWE-bench Pro 的设计刻意规避了模型可能记忆的已知解法,Mythos 在这里得分 77.8%,而 Anthropic 自家的 Opus 4.6 此前是 53.4%,跨越近 25 个百分点。

AI Agent 能力

评测Mythos PreviewGPT-5.4 Pro
Terminal Bench 2.082(第1/30)无数据
OSWorld-Verified79.60(第1/11)无数据

数学方向

FrontierMath 上 GPT-5.4 Pro 得分 50%(第1),FrontierMath Tier 4 得分 38%(第1)。Mythos 目前暂无这两项数据,无法直接比较。


定价对比

能力更强,定价反而更低——这是 Mythos 相对 GPT-5.4 Pro 的一个反直觉特点:

Claude Mythos PreviewGPT-5.4 Pro(≤272K)GPT-5.4 Pro(>272K)
输入$25 / 1M$30 / 1M$60 / 1M
输出$125 / 1M$180 / 1M$270 / 1M

输出 token 上,Mythos 比 GPT-5.4 Pro 标准价便宜约 31%;如果 GPT-5.4 Pro 调用超过 272K 上下文,成本差距进一步拉大。


规格差异:一处值得注意的硬限制

最大输出 token 上两者差距明显:GPT-5.4 Pro 支持最大 128,000 token 输出,Mythos Preview 目前为 8,192 token。对于需要大量生成内容的场景(长报告、大规模代码输出),这是一个实质性约束。上下文窗口方面,GPT-5.4 Pro 明确为 1M token,Mythos 尚未公布。


可用性:决定这次对比实际意义的关键变量

GPT-5.4 Pro 通过 OpenAI API 公开可用,任何开发者和企业均可调用。

Claude Mythos Preview 不向公众开放。Anthropic 通过「Project Glasswing」计划将其限定开放给约 40 个机构,12 个核心合作伙伴包括 AWS、Apple、Google、Microsoft、Cisco、CrowdStrike、NVIDIA 等,主要用途是扫描自身及开源软件的安全漏洞。

Anthropic 给出的理由是:Mythos 的漏洞挖掘和利用能力已经超出现有安全框架能够妥善管理的范围——它曾以不到 $50 的成本自主发现了存在 27 年的 OpenBSD 零日漏洞,并能完全自主完成从漏洞发现到可运行 exploit 的全过程。Anthropic 估计 6 到 18 个月内其他主要 AI 公司将发布能力相近的模型,Glasswing 是在这个窗口期进行的防御性部署。


综合判断

从基准测试看,Claude Mythos Preview 是当前评测分数最高的大语言模型,在 HLE、GPQA Diamond、编程和 Agent 方向均有明确领先或并列优势。GPT-5.4 Pro 在 BrowseComp 和数学方向(FrontierMath)有领先数据,但 Mythos 在后者暂无可比分数。

对大多数企业和开发者来说,当前实际可用的最强模型仍然是 GPT-5.4 Pro。Mythos 的意义目前更多是行业信号:它说明 Anthropic 的能力储备和公开产品之间存在一个此前并不透明的差距,且这个差距相当大。

DataLearner 将持续追踪两个模型的评测数据更新,新增基准数据录入后将在本页同步展示。

Anthropic

Claude Mythos Preview

Anthropic

发布时间
2026-04-07
上下文
未提供
参数量
未提供
最大输出
8,192 tokens
查看详情
OpenAI

GPT-5.4 Pro

综合领先

Claude Mythos Preview · 81.40

单项最高

Claude Mythos Preview · GPQA Diamond 94.60

模态覆盖

Claude Mythos Preview · 1 种模态

正面对比

Claude Mythos Preview
2
1
GPT-5.4 Pro
领先持平落后

3

评测基准

2

领先项

1

落后项

+0.60

平均分差

性能评测对比

支持不同模式与工具的榜单对比。

数据优先来自官方发布(GitHub、Hugging Face、论文),其次为评测基准官方结果,最后为第三方评测机构数据。 了解数据收集方法

思考模式
工具使用
联网能力
筛选: 最佳可用·2 个模式 · 3 评测基准
图表加载中...

评测得分表格

完整列出各模型/模式的评测得分,便于横向比较。

3 项可对比评测得分汇总。每个模型展示最佳得分,模式在分数下方标注。

评测项Claude Mythos PreviewGPT-5.4 Pro
GPQA Diamond
综合评估
94.60扩展思考
94.40思考水平·高
HLE
综合评估
64.70扩展思考 | 工具
58.70思考水平·高 | 工具
BrowseComp
AI Agent - 信息收集
84.90扩展思考 | 工具
89.30思考水平·高 | 工具

API 价格对比

输入输出 token 价格并排展示

能力与规格明细

是否 MoE、商业授权、模态支持等附加能力对比。

功能与规格
Claude Mythos PreviewAnthropic
GPT-5.4 ProOpenAI
核心规格发布时间
2026-04-072026-03-05
上下文
—1M
最大输出
8192128000
MoE 架构
不支持不支持
开源与许可代码开源
未提供未提供
权重开源
未提供未提供
商业授权
不开源不开源
模态支持文本 输入/输出
/
/
资料来源论文 / 报告
Introducing Claude Mythos Preview and Project GlasswingIntroducing GPT‑5.4
DataLearner 博客
Claude Mythos 是什么?Anthropic最强模型评测、安全能力与Project Glasswing详解未提供

OpenAI

发布时间
2026-03-05
上下文
1M
参数量
未提供
最大输出
128,000 tokens
查看详情·在线体验