See key specs and per-benchmark scores for each model/mode. Scroll horizontally for all columns. 当前对比 2 个模型的评测数据与核心参数。
Claude Mythos Preview vs Claude Opus 4.6:Anthropic 迄今最强模型,能力跨越了多少?
2026 年 4 月 7 日,Anthropic 通过 Project Glasswing 正式披露了 Claude Mythos Preview 的存在。这不是一次常规的模型发布——Mythos Preview 既不面向公众开放,也没有走通常的产品发布流程,而是作为一个定向网络安全研究工具,授权给 AWS、微软、谷歌、Cisco、CrowdStrike 等超过 40 家机构使用。Anthropic 同步承诺提供 1 亿美元的模型使用额度,用于支持这些机构在防御性网络安全领域的研究工作。
正因如此,Mythos Preview 的定位从一开始就与以往的 Claude 系列不同:它代表的是 Anthropic 当前技术能力的天花板,而非面向市场的产品形态。与之对比的 Claude Opus 4.6,则是 Mythos Preview 披露之前 Anthropic 旗下综合能力最强的可用模型,于 2026 年 2 月发布,定位为推理型大模型。
在编程能力上,差距比预期要大
从 Anthropic 官方公布的评测数据来看,Mythos Preview 与 Opus 4.6 之间的差距在编程类任务上最为显著。在 SWE-bench Verified(通用代码修复基准)上,Mythos Preview 达到 93.9%,Opus 4.6 为 80.8%,提升幅度约 13 个百分点。而在难度更高的 SWE-bench Pro 上,Mythos Preview 得分 77.8%,Opus 4.6 仅为 53.4%,差距扩大至 24 个百分点以上。
多模态代码理解(SWE-bench Multimodal)的数据更为极端:Mythos Preview 59.0% 对比 Opus 4.6 的 27.1%,两者相差超过一倍。Terminal-Bench 2.0 上,Mythos Preview 的 82.0% 对比 Opus 4.6 的 65.4%,延续了这一趋势。
对于专注代码生成与工程自动化的用户来说,这些数字意味着 Mythos Preview 在处理真实工程任务时有质的跃升,而不只是边际改进。
在推理与知识类任务上,差距收窄,但仍领先
GPQA Diamond(研究生水平科学问答)上,Mythos Preview 得 94.6%,Opus 4.6 得 91.3%,差距约 3 个百分点。Humanity's Last Exam(多学科极限知识评测)方面,无工具条件下 Mythos Preview 56.8% 对比 Opus 4.6 的 40.0%;有工具辅助时则分别为 64.7% 和 53.1%。
这说明在纯推理和知识密度较高的任务上,Opus 4.6 并非毫无竞争力——但 Mythos Preview 依然保持明显优势,且在工具使用场景中能更有效地放大自身能力。
BrowseComp(联网信息检索)的结果也值得关注:Mythos Preview 86.9% 对比 Opus 4.6 的 83.7%,得分差距不大,但 Anthropic 特别指出 Mythos Preview 完成同样任务所消耗的 token 数量仅为 Opus 4.6 的五分之一左右,效率优势非常突出。
网络安全能力是 Mythos Preview 的核心差异点
CyberGym(网络安全漏洞复现基准)上,Mythos Preview 83.1% 对比 Opus 4.6 的 66.6%,差距约 17 个百分点。结合 Anthropic 披露的实际应用案例——包括在 OpenBSD、FFmpeg、Linux 内核中发现存在数十年的零日漏洞——这一能力更接近于质变而非量变。Anthropic 的说法是,Mythos Preview 已经能在无需人工干预的情况下自主完成漏洞发现和利用链的构建,且其发现的漏洞中有部分经历了数百万次自动化测试而从未被触发。
这是 Mythos Preview 名字出现在 Project Glasswing 框架下而非常规产品线下的根本原因:能力本身带来了访问限制,而不是相反。
价格:五倍溢价意味着什么
API 定价上,Mythos Preview 输入 $25/百万 tokens,输出 $125/百万 tokens;Opus 4.6 则是输入 $5,输出 $25,价差恰好是五倍。两者均为闭源模型,不支持权重开放。
目前 Mythos Preview 的上下文输出上限为 8192 tokens,明显低于 Opus 4.6 的 131072 tokens——这是当前 Preview 版本的限制,反映其仍处于受控使用阶段,并非最终形态。
应该怎么理解这个对比
Claude Mythos Preview 目前不是一个可以被普通开发者或企业直接调用的模型,Anthropic 也明确表示暂无面向公众开放的计划。这次对比的价值在于:Mythos Preview 作为 Anthropic 当前技术天花板的标定物,让外界第一次看到了它与已有最强商用模型 Opus 4.6 之间的真实距离。编程、安全、多模态理解,是差距最大的三个维度;推理与搜索类任务次之。
Anthropic 表示,他们计划在后续的 Claude Opus 新版本上率先落地 Mythos 级别的部分能力,同步引入新的安全防护机制,作为将 Mythos 级模型推向更大范围商用的过渡步骤。Mythos Preview 更像是一把用来标记终点线位置的尺子,而不是起跑枪。
Claude Mythos Preview
Anthropic Claude Opus 4.6
Compare benchmark results across thinking modes and tool usage.
Data sourced primarily from official releases (GitHub, Hugging Face, papers), then benchmark leaderboards, then third-party evaluators. Learn about our data methodology
Best Overall
—
Best Single
—
Thinking Mode (Default)
Claude Mythos Preview · 1 Modality support
Higher is usually better; “—” means no score.
Complete scores for each model/mode across selected benchmarks.
Feature compare
Licensing, MoE architecture, and multi-modality support.
| Features & specs | CL Claude Mythos PreviewAnthropic | CL Claude Opus 4.6Anthropic |
|---|---|---|
Model snapshots | ||
Organization | Anthropic | Anthropic |
模型全名 | Claude Mythos Preview | Anthropic Claude Opus 4.6 |
模型简介 | Not provided | Not provided |
模型类型 | 聊天大模型 | 推理大模型 |
模型代号 | claude-mythos-preview | claude-opus-4-6 |
Release | 2026-04-07 | 2026-02-05 |
MoE | No | No |
规格与性能 | ||
Context length | — | 1000K |
Parameters | — | — |
激活参数量 | Not provided | Not provided |
模型规模 | 未知 | 未知 |
模型大小 | Not provided | 0B |
推理速度 | ||
推理等级 | ||
最大输出 | 8192 | 131072 |
Supported modes | No mode data | No mode data |
开源与许可 | ||
Code Open Source | Not provided | Not provided |
Weights Open Source | Not provided | Not provided |
Commercial use | 不开源 | 不开源 |
Modality support | ||
Text Input/Output | / | / |
Image Input/Output | Not provided | Not provided |
Audio Input/Output | Not provided | Not provided |
Video Input/Output | Not provided | Not provided |
Embedding Input/Output | Not provided | Not provided |
API 接口详情 | ||
Text 价格 | Input: $25 / 1M tokensOutput: $125 / 1M tokens | Input: $5 / 1M tokensOutput: $25 / 1M tokensCache: $1 / 1M tokensInput (Extended): $10 / 1M tokensOutput (Extended): $37.5 / 1M tokensThreshold: 200K |
Image API pricing | Not provided | Not provided |
Audio API pricing | Not provided | Not provided |
Video API pricing | Not provided | Not provided |
Embedding API pricing | Not provided | Not provided |
Resources | ||
GitHub | Not provided | Not provided |
Hugging Face | Not provided | Not provided |
Official Page | Not provided | Not provided |
Guides | Not provided | Not provided |
Papers | Introducing Claude Mythos Preview and Project Glasswing | Introducing Claude Opus 4.6 |
DataLearnerAI | Claude Mythos 是什么?Anthropic最强模型评测、安全能力与Project Glasswing详解 | Not provided |
API pricing
Side-by-side input/output token pricing