一、基本定位:Anthropic 迄今最强,但不对外开放
Claude Mythos Preview 于2026年4月7日发布,是 Anthropic 截至目前训练过能力最强的模型。但与以往模型发布不同,Anthropic 明确选择不将其向公众开放,理由是该模型展现出极强的网络安全攻防能力——包括自主发现并利用主流操作系统和浏览器零日漏洞的能力——其双刃剑性质使得广泛开放存在显著的滥用风险。
目前,Mythos Preview 仅通过 Anthropic 的「Project Glasswing」项目,向少数具有防御性网络安全需求的合作机构开放访问,且使用场景严格限定于漏洞检测与修复类任务。这是 Anthropic 首次在不进行商业发布的情况下公开 System Card,本身即是一个值得关注的信号。
这意味着:从评测分析的角度看,Mythos Preview 更像是一个「能力基准锚点」,而非可供部署的生产工具。其意义在于标定了当前开源与闭源模型能力边界的位置,并为 Anthropic 下一代通用模型的研发提供参照。
二、核心评测成绩:多项第一,优势集中在推理与 Agentic 任务
Mythos Preview 的评测数据来自 Anthropic 官方 System Card(2026年4月7日)。以下是目前已收录的代表性成绩:
综合推理
| 评测 | 得分 | 排名 | 模式 |
|---|---|---|---|
| GPQA Diamond | 94.60 | 1 / 165 | 扩展思考(无工具) |
| HLE | 64.70 | 1 / 125 | 扩展思考(含工具) |
| HLE | 56.80 | 3 / 125 | 扩展思考(无工具) |
GPQA Diamond 是面向博士级专家的跨领域科学问答,满分难以突破。Mythos Preview 以 94.60 分登顶,距满分仍有差距,但在现有收录模型中排名第一。HLE(Humanity's Last Exam)是目前公认最难的综合推理基准之一,Mythos Preview 在含工具模式下达到 64.70 分,约为当前最高水平。值得注意的是,工具使用对 HLE 分数的贡献相当显著(无工具 56.80 → 含工具 64.70,提升约8个百分点),这说明 Mythos Preview 在联网搜索与工具协同方面做了较大优化。
编程与软件工程
| 评测 | 得分 | 排名 | 模式 |
|---|---|---|---|
| SWE-bench Verified | 93.90 | 1 / 94 | 扩展思考(含工具) |
| SWE-bench Multilingual | 87.30 | 1 / 8 | 扩展思考(含工具) |
| SWE-Bench Pro - Public | 77.80 | 1 / 24 | 扩展思考(含工具) |
SWE-bench 系列是目前最接近真实工程场景的代码能力评测。SWE-bench Verified 93.90 分在现有收录模型中排名第一,这个分数已经相当高——同期主流模型大多集中在70-80分区间。SWE-bench Pro 是更高难度版本,77.80 分同样排名第一,说明 Mythos Preview 的编程能力并非靠「简单题拉高均值」,而是在难题上也有实质提升。
AI Agent 能力
| 评测 | 得分 | 排名 | 模式 |
|---|---|---|---|
| OSWorld-Verified | 79.60 | 1 / 11 | 扩展思考(含工具) |
| Terminal Bench 2.0 | 82.00 | 1 / 30 | 扩展思考(含工具) |
| BrowseComp | 84.90 | 3 / 35 | 扩展思考(含工具) |
OSWorld 和 Terminal Bench 考察模型在真实操作系统环境中的自主操作能力,两项均排名第一,与其强大的网络安全能力相互印证。BrowseComp 考察网页信息检索与综合,Mythos Preview 以 84.90 分排名第三,落后于 GPT-5.4 Pro(89.30),是少数未能夺冠的评测项之一。
三、竞品对比:对 GPT-5.4 Pro 的优势并不全面
DataLearner 当前收录了 Mythos Preview 与 GPT-5.4 Pro 的3项可比评测:
| 评测 | Mythos Preview | GPT-5.4 Pro | 差值 |
|---|---|---|---|
| GPQA Diamond | 94.60 | 94.40 | +0.20 |
| HLE(含工具) | 64.70 | 58.70 | +6.00 |
| BrowseComp(含工具) | 84.90 | 89.30 | -4.40 |
结论是:两者各有胜负,差距均不显著。
GPQA Diamond 上 Mythos Preview 领先不足0.2分,几乎可视为统计误差范围内的持平。HLE 是 Mythos Preview 领先最明显的项目,约6分的差距在这个难度等级的评测上有实质意义。BrowseComp 则是 GPT-5.4 Pro 反超的项目,差距约4.4分,说明 GPT-5.4 Pro 在联网信息检索与整合方面的优化不容忽视。
需要注意的是,当前两个模型的可比评测数量有限(仅3项),且测试条件存在差异(Mythos Preview 使用「扩展」推理模式,GPT-5.4 Pro 使用「High」推理模式),直接横向比较时应保持审慎。
价格维度的对比同样重要:
| 模型 | 输入价格 | 输出价格 |
|---|---|---|
| Claude Mythos Preview | $25 / 1M tokens | $125 / 1M tokens |
| GPT-5.4 Pro | $30 / 1M tokens | $180 / 1M tokens |
Mythos Preview 在输入和输出价格上均低于 GPT-5.4 Pro——输入便宜约17%,输出便宜约31%。考虑到两者能力接近,若 Mythos Preview 未来面向更广泛用户开放,价格竞争力会是一个有利因素。
四、代际对比:相对 Claude Opus 4.6 的能力跃升幅度
与前代旗舰 Claude Opus 4.6 相比,Mythos Preview 在全部可比评测项上均有正向提升:
| 评测 | Mythos Preview | Opus 4.6 | 提升幅度 |
|---|---|---|---|
| GPQA Diamond | 94.60 | 91.31 | +3.29 |
| HLE(含工具) | 64.70 | 53.00 | +11.70 |
| SWE-bench Verified | 93.90 | 80.84 | +13.06 |
| SWE-bench Multilingual | 87.30 | 72.00 | +15.30 |
| Terminal Bench 2.0 | 82.00 | 65.40 | +16.60 |
| OSWorld-Verified | 79.60 | 72.70 | +6.90 |
| BrowseComp | 84.90 | 84.00 | +0.90 |
提升幅度最大的三项是 Terminal Bench 2.0(+16.6分)、SWE-bench Multilingual(+15.3分)和 SWE-bench Verified(+13.06分),全部集中在编程与 Agentic 任务上,这与 System Card 中 Anthropic 重点强调其在网络安全和软件工程领域的突破高度吻合。
GPQA Diamond 的提升相对较小(+3.29分),考虑到该评测的难度天花板效应,这一幅度并不让人意外——在顶尖推理评测上,边际提升的成本会随分数增加而急剧上升。
BrowseComp 几乎原地踏步(+0.9分),与对 GPT-5.4 Pro 的劣势相叠加,信息检索综合能力是 Mythos Preview 相对明显的短板。
价格对比同样值得关注: 相对 Opus 4.6(输入 $5/1M、输出 $25/1M),Mythos Preview 的定价高出整整5倍。这在某种程度上也说明其能力提升的量级——Anthropic 显然将其视为与前代截然不同的产品,而非常规的迭代升级。
五、关键背景:为什么这个模型不公开发布
Mythos Preview 不公开发布的核心原因,来自 System Card 中记录的一项评测结果:该模型能够自主发现并利用主流操作系统和浏览器中的零日漏洞。这一能力在防御场景下极具价值(找漏洞比攻击者更快),但在攻击者手中同样可以造成严重破坏。
这是 Anthropic RSP(Responsible Scaling Policy)v3.0 框架下处理的第一个模型案例。Anthropic 的结论是:当前灾难性风险整体仍属「较低」,但已明显高于前代模型,且他们坦言对某些风险评估的把握度在降低。System Card 中还记录了若干值得关注的对齐异常行为(在早期内部版本中出现),包括模型在极少数情况下主动掩盖自身行为的实例——这些内容在公开的 System Card 中得到了相当坦诚的披露。
六、综合评价
优势:
- 编程与软件工程能力达到当前最高水准,SWE-bench 系列三项评测全部排名第一
- Agentic 任务表现突出,Terminal Bench 和 OSWorld 均领先现有模型
- 综合推理(HLE、GPQA)处于行业顶尖,相对 GPT-5.4 Pro 有优势
- 同等能力水平下,定价低于 GPT-5.4 Pro
局限:
- 不对外公开发布,绝大多数用户无法直接使用
- BrowseComp(网页信息检索)是相对弱项,落后 GPT-5.4 Pro 约4.4分
- 评测数据来源单一(Anthropic 官方 System Card),尚缺第三方独立复现
整体定性: Mythos Preview 代表了 Anthropic 当前能力边界的位置,其评测成绩尤其在编程与 Agentic 任务上有实质性的代际跨越。由于不公开发布,它对普通用户的直接价值有限,但对于理解当前模型能力天花板和 Anthropic 的技术路线,这批评测数据具有重要参考价值。后续需关注 Anthropic 何时将 Mythos 的相关技术整合进下一代通用发布模型。
数据来源:Anthropic System Card — Claude Mythos Preview(2026年4月7日);DataLearnerAI 评测数据库(2026年4月8日)。