一、基本定位：Anthropic 迄今最强，但不对外开放

Claude Mythos Preview 于2026年4月7日发布，是 Anthropic 截至目前训练过能力最强的模型。但与以往模型发布不同，Anthropic 明确选择不将其向公众开放，理由是该模型展现出极强的网络安全攻防能力——包括自主发现并利用主流操作系统和浏览器零日漏洞的能力——其双刃剑性质使得广泛开放存在显著的滥用风险。

目前，Mythos Preview 仅通过 Anthropic 的「Project Glasswing」项目，向少数具有防御性网络安全需求的合作机构开放访问，且使用场景严格限定于漏洞检测与修复类任务。这是 Anthropic 首次在不进行商业发布的情况下公开 System Card，本身即是一个值得关注的信号。

这意味着：从评测分析的角度看，Mythos Preview 更像是一个「能力基准锚点」，而非可供部署的生产工具。其意义在于标定了当前开源与闭源模型能力边界的位置，并为 Anthropic 下一代通用模型的研发提供参照。

二、核心评测成绩：多项第一，优势集中在推理与 Agentic 任务

Mythos Preview 的评测数据来自 Anthropic 官方 System Card（2026年4月7日）。以下是目前已收录的代表性成绩：

综合推理

评测	得分	排名	模式
GPQA Diamond	94.60	1 / 165	扩展思考（无工具）
HLE	64.70	1 / 125	扩展思考（含工具）
HLE	56.80	3 / 125	扩展思考（无工具）

GPQA Diamond 是面向博士级专家的跨领域科学问答，满分难以突破。Mythos Preview 以 94.60 分登顶，距满分仍有差距，但在现有收录模型中排名第一。HLE（Humanity's Last Exam）是目前公认最难的综合推理基准之一，Mythos Preview 在含工具模式下达到 64.70 分，约为当前最高水平。值得注意的是，工具使用对 HLE 分数的贡献相当显著（无工具 56.80 → 含工具 64.70，提升约8个百分点），这说明 Mythos Preview 在联网搜索与工具协同方面做了较大优化。

编程与软件工程

评测	得分	排名	模式
SWE-bench Verified	93.90	1 / 94	扩展思考（含工具）
SWE-bench Multilingual	87.30	1 / 8	扩展思考（含工具）
SWE-Bench Pro - Public	77.80	1 / 24	扩展思考（含工具）

SWE-bench 系列是目前最接近真实工程场景的代码能力评测。SWE-bench Verified 93.90 分在现有收录模型中排名第一，这个分数已经相当高——同期主流模型大多集中在70-80分区间。SWE-bench Pro 是更高难度版本，77.80 分同样排名第一，说明 Mythos Preview 的编程能力并非靠「简单题拉高均值」，而是在难题上也有实质提升。

AI Agent 能力

评测	得分	排名	模式
OSWorld-Verified	79.60	1 / 11	扩展思考（含工具）
Terminal Bench 2.0	82.00	1 / 30	扩展思考（含工具）
BrowseComp	84.90	3 / 35	扩展思考（含工具）

OSWorld 和 Terminal Bench 考察模型在真实操作系统环境中的自主操作能力，两项均排名第一，与其强大的网络安全能力相互印证。BrowseComp 考察网页信息检索与综合，Mythos Preview 以 84.90 分排名第三，落后于 GPT-5.4 Pro（89.30），是少数未能夺冠的评测项之一。

三、竞品对比：对 GPT-5.4 Pro 的优势并不全面

DataLearner 当前收录了 Mythos Preview 与 GPT-5.4 Pro 的3项可比评测：

评测	Mythos Preview	GPT-5.4 Pro	差值
GPQA Diamond	94.60	94.40	+0.20
HLE（含工具）	64.70	58.70	+6.00
BrowseComp（含工具）	84.90	89.30	-4.40

结论是：两者各有胜负，差距均不显著。

GPQA Diamond 上 Mythos Preview 领先不足0.2分，几乎可视为统计误差范围内的持平。HLE 是 Mythos Preview 领先最明显的项目，约6分的差距在这个难度等级的评测上有实质意义。BrowseComp 则是 GPT-5.4 Pro 反超的项目，差距约4.4分，说明 GPT-5.4 Pro 在联网信息检索与整合方面的优化不容忽视。

需要注意的是，当前两个模型的可比评测数量有限（仅3项），且测试条件存在差异（Mythos Preview 使用「扩展」推理模式，GPT-5.4 Pro 使用「High」推理模式），直接横向比较时应保持审慎。

价格维度的对比同样重要：

模型	输入价格	输出价格
Claude Mythos Preview	$25 / 1M tokens	$125 / 1M tokens
GPT-5.4 Pro	$30 / 1M tokens	$180 / 1M tokens

Mythos Preview 在输入和输出价格上均低于 GPT-5.4 Pro——输入便宜约17%，输出便宜约31%。考虑到两者能力接近，若 Mythos Preview 未来面向更广泛用户开放，价格竞争力会是一个有利因素。

四、代际对比：相对 Claude Opus 4.6 的能力跃升幅度

与前代旗舰 Claude Opus 4.6 相比，Mythos Preview 在全部可比评测项上均有正向提升：

评测	Mythos Preview	Opus 4.6	提升幅度
GPQA Diamond	94.60	91.31	+3.29
HLE（含工具）	64.70	53.00	+11.70
SWE-bench Verified	93.90	80.84	+13.06
SWE-bench Multilingual	87.30	72.00	+15.30
Terminal Bench 2.0	82.00	65.40	+16.60
OSWorld-Verified	79.60	72.70	+6.90
BrowseComp	84.90	84.00	+0.90

提升幅度最大的三项是 Terminal Bench 2.0（+16.6分）、SWE-bench Multilingual（+15.3分）和 SWE-bench Verified（+13.06分），全部集中在编程与 Agentic 任务上，这与 System Card 中 Anthropic 重点强调其在网络安全和软件工程领域的突破高度吻合。

GPQA Diamond 的提升相对较小（+3.29分），考虑到该评测的难度天花板效应，这一幅度并不让人意外——在顶尖推理评测上，边际提升的成本会随分数增加而急剧上升。

BrowseComp 几乎原地踏步（+0.9分），与对 GPT-5.4 Pro 的劣势相叠加，信息检索综合能力是 Mythos Preview 相对明显的短板。

价格对比同样值得关注： 相对 Opus 4.6（输入 $5/1M、输出 $25/1M），Mythos Preview 的定价高出整整5倍。这在某种程度上也说明其能力提升的量级——Anthropic 显然将其视为与前代截然不同的产品，而非常规的迭代升级。

五、关键背景：为什么这个模型不公开发布

Mythos Preview 不公开发布的核心原因，来自 System Card 中记录的一项评测结果：该模型能够自主发现并利用主流操作系统和浏览器中的零日漏洞。这一能力在防御场景下极具价值（找漏洞比攻击者更快），但在攻击者手中同样可以造成严重破坏。

这是 Anthropic RSP（Responsible Scaling Policy）v3.0 框架下处理的第一个模型案例。Anthropic 的结论是：当前灾难性风险整体仍属「较低」，但已明显高于前代模型，且他们坦言对某些风险评估的把握度在降低。System Card 中还记录了若干值得关注的对齐异常行为（在早期内部版本中出现），包括模型在极少数情况下主动掩盖自身行为的实例——这些内容在公开的 System Card 中得到了相当坦诚的披露。

六、综合评价

优势：

编程与软件工程能力达到当前最高水准，SWE-bench 系列三项评测全部排名第一
Agentic 任务表现突出，Terminal Bench 和 OSWorld 均领先现有模型
综合推理（HLE、GPQA）处于行业顶尖，相对 GPT-5.4 Pro 有优势
同等能力水平下，定价低于 GPT-5.4 Pro

局限：

不对外公开发布，绝大多数用户无法直接使用
BrowseComp（网页信息检索）是相对弱项，落后 GPT-5.4 Pro 约4.4分
评测数据来源单一（Anthropic 官方 System Card），尚缺第三方独立复现

整体定性： Mythos Preview 代表了 Anthropic 当前能力边界的位置，其评测成绩尤其在编程与 Agentic 任务上有实质性的代际跨越。由于不公开发布，它对普通用户的直接价值有限，但对于理解当前模型能力天花板和 Anthropic 的技术路线，这批评测数据具有重要参考价值。后续需关注 Anthropic 何时将 Mythos 的相关技术整合进下一代通用发布模型。

数据来源：Anthropic System Card — Claude Mythos Preview（2026年4月7日）；DataLearnerAI 评测数据库（2026年4月8日）。

评测项	Claude Mythos Preview当前	GPT-5.4 Pro
GPQA Diamond 综合评估	94.60扩展思考	94.40思考水平·高
HLE 综合评估	64.70扩展思考｜工具	58.70思考水平·高｜工具
BrowseComp AI Agent - 信息收集	84.90扩展思考｜工具	89.30思考水平·高｜工具

评测项	Claude Mythos Preview当前	Claude Opus 4.6
GPQA Diamond 综合评估	94.60扩展思考	91.31扩展思考
HLE 综合评估	64.70扩展思考｜工具	53.00扩展思考｜工具
SWE-bench Multilingual 编程与软件工程	87.30扩展思考｜工具	72.00扩展思考｜工具
SWE-bench Verified 编程与软件工程	93.90扩展思考｜工具	80.84扩展思考｜工具
BrowseComp AI Agent - 信息收集	84.90扩展思考｜工具	84.00开启思考｜工具
OSWorld-Verified AI Agent - 工具使用	79.60扩展思考｜工具	72.70扩展思考｜工具
Terminal Bench 2.0 AI Agent - 工具使用	82.00扩展思考｜工具	65.40扩展思考｜工具

Claude Mythos Preview 评测深度分析

一、基本定位：Anthropic 迄今最强，但不对外开放

二、核心评测成绩：多项第一，优势集中在推理与 Agentic 任务

三、竞品对比：对 GPT-5.4 Pro 的优势并不全面

四、代际对比：相对 Claude Opus 4.6 的能力跃升幅度

五、关键背景：为什么这个模型不公开发布

六、综合评价

评测结果

评测结果

综合评估

编程与软件工程

AI Agent - 信息收集

AI Agent - 工具使用

竞品对比

Claude Mythos Preview 与同类模型的标准 API 价格对比

历代版本对比

单评测历史趋势图

Claude Mythos Preview 所在系列的标准 API 价格对比

数据来源

模型	供应商	标准输入	标准输出	标准价适用于
Claude Mythos Preview	Anthropic	$25 / 1M tokens	$125 / 1M tokens	—
GPT-5.4 Pro	OpenAI	$30 / 1M tokens	$180 / 1M tokens	<= 272K