Claude Mythos Preview vs Claude Opus 4.6:Anthropic 迄今最强模型,能力跨越了多少?
2026 年 4 月 7 日,Anthropic 通过 Project Glasswing 正式披露了 Claude Mythos Preview 的存在。这不是一次常规的模型发布——Mythos Preview 既不面向公众开放,也没有走通常的产品发布流程,而是作为一个定向网络安全研究工具,授权给 AWS、微软、谷歌、Cisco、CrowdStrike 等超过 40 家机构使用。Anthropic 同步承诺提供 1 亿美元的模型使用额度,用于支持这些机构在防御性网络安全领域的研究工作。
正因如此,Mythos Preview 的定位从一开始就与以往的 Claude 系列不同:它代表的是 Anthropic 当前技术能力的天花板,而非面向市场的产品形态。与之对比的 Claude Opus 4.6,则是 Mythos Preview 披露之前 Anthropic 旗下综合能力最强的可用模型,于 2026 年 2 月发布,定位为推理型大模型。
在编程能力上,差距比预期要大
从 Anthropic 官方公布的评测数据来看,Mythos Preview 与 Opus 4.6 之间的差距在编程类任务上最为显著。在 SWE-bench Verified(通用代码修复基准)上,Mythos Preview 达到 93.9%,Opus 4.6 为 80.8%,提升幅度约 13 个百分点。而在难度更高的 SWE-bench Pro 上,Mythos Preview 得分 77.8%,Opus 4.6 仅为 53.4%,差距扩大至 24 个百分点以上。
多模态代码理解(SWE-bench Multimodal)的数据更为极端:Mythos Preview 59.0% 对比 Opus 4.6 的 27.1%,两者相差超过一倍。Terminal-Bench 2.0 上,Mythos Preview 的 82.0% 对比 Opus 4.6 的 65.4%,延续了这一趋势。
对于专注代码生成与工程自动化的用户来说,这些数字意味着 Mythos Preview 在处理真实工程任务时有质的跃升,而不只是边际改进。
在推理与知识类任务上,差距收窄,但仍领先
GPQA Diamond(研究生水平科学问答)上,Mythos Preview 得 94.6%,Opus 4.6 得 91.3%,差距约 3 个百分点。Humanity's Last Exam(多学科极限知识评测)方面,无工具条件下 Mythos Preview 56.8% 对比 Opus 4.6 的 40.0%;有工具辅助时则分别为 64.7% 和 53.1%。
这说明在纯推理和知识密度较高的任务上,Opus 4.6 并非毫无竞争力——但 Mythos Preview 依然保持明显优势,且在工具使用场景中能更有效地放大自身能力。
BrowseComp(联网信息检索)的结果也值得关注:Mythos Preview 86.9% 对比 Opus 4.6 的 83.7%,得分差距不大,但 Anthropic 特别指出 Mythos Preview 完成同样任务所消耗的 token 数量仅为 Opus 4.6 的五分之一左右,效率优势非常突出。
网络安全能力是 Mythos Preview 的核心差异点
CyberGym(网络安全漏洞复现基准)上,Mythos Preview 83.1% 对比 Opus 4.6 的 66.6%,差距约 17 个百分点。结合 Anthropic 披露的实际应用案例——包括在 OpenBSD、FFmpeg、Linux 内核中发现存在数十年的零日漏洞——这一能力更接近于质变而非量变。Anthropic 的说法是,Mythos Preview 已经能在无需人工干预的情况下自主完成漏洞发现和利用链的构建,且其发现的漏洞中有部分经历了数百万次自动化测试而从未被触发。
这是 Mythos Preview 名字出现在 Project Glasswing 框架下而非常规产品线下的根本原因:能力本身带来了访问限制,而不是相反。
价格:五倍溢价意味着什么
API 定价上,Mythos Preview 输入 $25/百万 tokens,输出 $125/百万 tokens;Opus 4.6 则是输入 $5,输出 $25,价差恰好是五倍。两者均为闭源模型,不支持权重开放。
目前 Mythos Preview 的上下文输出上限为 8192 tokens,明显低于 Opus 4.6 的 131072 tokens——这是当前 Preview 版本的限制,反映其仍处于受控使用阶段,并非最终形态。
应该怎么理解这个对比
Claude Mythos Preview 目前不是一个可以被普通开发者或企业直接调用的模型,Anthropic 也明确表示暂无面向公众开放的计划。这次对比的价值在于:Mythos Preview 作为 Anthropic 当前技术天花板的标定物,让外界第一次看到了它与已有最强商用模型 Opus 4.6 之间的真实距离。编程、安全、多模态理解,是差距最大的三个维度;推理与搜索类任务次之。
Anthropic 表示,他们计划在后续的 Claude Opus 新版本上率先落地 Mythos 级别的部分能力,同步引入新的安全防护机制,作为将 Mythos 级模型推向更大范围商用的过渡步骤。Mythos Preview 更像是一把用来标记终点线位置的尺子,而不是起跑枪。
