自动展示选中模型的核心信息与各评测得分,可左右滑动查看完整表格。 当前对比 2 个模型的评测数据与核心参数。
一句话结论: 在当前已有对比数据的基准测试中,Claude Mythos Preview 整体领先 GPT-5.4 Pro,尤其在推理和编程方向优势显著;GPT-5.4 Pro 在信息检索(BrowseComp)和数学方向(FrontierMath)有优势或 Mythos 暂无数据。但 Mythos 目前不对公众开放,能调用的机构极为有限。
Claude Mythos Preview 于 2026 年 4 月 7 日正式公布,是 Anthropic 历史上能力最强的模型,内部代号 Capybara,定位于 Opus 层级之上的全新模型等级。Anthropic 官方系统卡的描述是:「在软件工程、推理、计算机使用、知识工作和研究辅助等众多领域,其能力已实质性超越此前训练的任何模型。」
GPT-5.4 Pro 于 2026 年 3 月 5 日发布,是 OpenAI 目前面向 API 公开的最强模型,支持 100 万 token 上下文、最大输出 128K token,是当前公开可调用模型中的顶级选项。
以下数据均来自 DataLearner 收录的官方评测结果,括号内为测试条件。
综合推理(HLE)
HLE 是目前最难的综合推理基准之一,Mythos 在两种测试条件下均领先:
不带工具条件下两者差距尤其大——GPT-5.4 Pro 排到了第 25 名,而 Mythos 仍在第 3 名。这说明 Mythos 的基础推理能力提升是实质性的,对工具的依赖程度更低。
科学推理(GPQA Diamond)
两个模型在这项测试上基本并列:Mythos 94.60(第1),GPT-5.4 Pro 94.40(第2),差距在统计误差范围内,可视为持平。
信息检索(BrowseComp)
这是目前 DataLearner 数据中 GPT-5.4 Pro 明确领先的一项:GPT-5.4 Pro 89.30(第1),Mythos 84.90(第3)。BrowseComp 测试模型在开放网络上检索难以定位信息的能力,差距约 4.4 个百分点。
编程与软件工程
这是 Mythos 领先幅度最显著的方向,且目前 GPT-5.4 Pro 无对应数据可比:
SWE-bench Pro 的设计刻意规避了模型可能记忆的已知解法,Mythos 在这里得分 77.8%,而 Anthropic 自家的 Opus 4.6 此前是 53.4%,跨越近 25 个百分点。
AI Agent 能力
数学方向
FrontierMath 上 GPT-5.4 Pro 得分 50%(第1),FrontierMath Tier 4 得分 38%(第1)。Mythos 目前暂无这两项数据,无法直接比较。
能力更强,定价反而更低——这是 Mythos 相对 GPT-5.4 Pro 的一个反直觉特点:
输出 token 上,Mythos 比 GPT-5.4 Pro 标准价便宜约 31%;如果 GPT-5.4 Pro 调用超过 272K 上下文,成本差距进一步拉大。
最大输出 token 上两者差距明显:GPT-5.4 Pro 支持最大 128,000 token 输出,Mythos Preview 目前为 8,192 token。对于需要大量生成内容的场景(长报告、大规模代码输出),这是一个实质性约束。上下文窗口方面,GPT-5.4 Pro 明确为 1M token,Mythos 尚未公布。
GPT-5.4 Pro 通过 OpenAI API 公开可用,任何开发者和企业均可调用。
Claude Mythos Preview 不向公众开放。Anthropic 通过「Project Glasswing」计划将其限定开放给约 40 个机构,12 个核心合作伙伴包括 AWS、Apple、Google、Microsoft、Cisco、CrowdStrike、NVIDIA 等,主要用途是扫描自身及开源软件的安全漏洞。
Anthropic 给出的理由是:Mythos 的漏洞挖掘和利用能力已经超出现有安全框架能够妥善管理的范围——它曾以不到 $50 的成本自主发现了存在 27 年的 OpenBSD 零日漏洞,并能完全自主完成从漏洞发现到可运行 exploit 的全过程。Anthropic 估计 6 到 18 个月内其他主要 AI 公司将发布能力相近的模型,Glasswing 是在这个窗口期进行的防御性部署。
从基准测试看,Claude Mythos Preview 是当前评测分数最高的大语言模型,在 HLE、GPQA Diamond、编程和 Agent 方向均有明确领先或并列优势。GPT-5.4 Pro 在 BrowseComp 和数学方向(FrontierMath)有领先数据,但 Mythos 在后者暂无可比分数。
对大多数企业和开发者来说,当前实际可用的最强模型仍然是 GPT-5.4 Pro。Mythos 的意义目前更多是行业信号:它说明 Anthropic 的能力储备和公开产品之间存在一个此前并不透明的差距,且这个差距相当大。
DataLearner 将持续追踪两个模型的评测数据更新,新增基准数据录入后将在本页同步展示。
Best Overall
—
Best Single
—
Thinking 模式(默认)
Claude Mythos Preview · 1 模态支持
模型数据收集自官网、Artificial Analysis等页面
完整列出各模型/模式的评测得分,便于横向比较。
其他能力
是否 MoE、商业授权、模态支持等附加能力对比。
| 功能与规格 | CL Claude Mythos PreviewAnthropic | GP GPT-5.4 ProOpenAI |
|---|---|---|
模型信息卡片 | ||
开发机构 | Anthropic | OpenAI |
模型全名 | Claude Mythos Preview | GPT-5.4 Pro |
模型简介 | 未提供 | 未提供 |
模型类型 | 聊天大模型 | 多模态大模型 |
模型代号 | claude-mythos-preview | gpt-5-4-pro |
发布时间 | 2026-04-07 | 2026-03-05 |
MoE 架构 | 不支持 | 不支持 |
规格与性能 | ||
上下文 | — | 1M |
参数量 | — | — |
激活参数量 | 未提供 | 未提供 |
模型规模 | 未知 | 未知 |
模型大小 | 未提供 | 未提供 |
推理速度 | ||
推理等级 | ||
最大输出 | 8192 | 128000 |
支持模式 | 暂无模式数据 | 暂无模式数据 |
开源与许可 | ||
代码开源 | 未提供 | 未提供 |
权重开源 | 未提供 | 未提供 |
商业授权 | 不开源 | 不开源 |
模态支持 | ||
文本 输入/输出 | / | / |
图片 输入/输出 | 未提供 | 未提供 |
音频 输入/输出 | 未提供 | 未提供 |
视频 输入/输出 | 未提供 | 未提供 |
Embedding 输入/输出 | 未提供 | 未提供 |
API 接口详情 | ||
文本 价格 | 输入: $25 / 1M tokens输出: $125 / 1M tokens | 输入: $30 / 1M tokens输出: $180 / 1M tokensInput (Extended): $60 / 1M tokensOutput (Extended): $270 / 1M tokensThreshold: 272K |
图片 API 价格 | 未提供 | 未提供 |
音频 API 价格 | 未提供 | 未提供 |
视频 API 价格 | 未提供 | 未提供 |
Embedding API 价格 | 未提供 | 未提供 |
资源与链接 | ||
GitHub | 未提供 | 未提供 |
Hugging Face | 未提供 | 未提供 |
官方页面 | 未提供 | 未提供 |
实用指南 | 未提供 | 未提供 |
论文/报告 | Introducing Claude Mythos Preview and Project Glasswing | Introducing GPT‑5.4 |
DataLearnerAI | Claude Mythos 是什么?Anthropic最强模型评测、安全能力与Project Glasswing详解 | 未提供 |
API 价格
输入输出 token 价格并排展示