自动展示选中模型的核心信息与各评测得分,可左右滑动查看完整表格。 当前对比 2 个模型的评测数据与核心参数。
Claude Mythos Preview vs Claude Opus 4.6:Anthropic 迄今最强模型,能力跨越了多少?
2026 年 4 月 7 日,Anthropic 通过 Project Glasswing 正式披露了 Claude Mythos Preview 的存在。这不是一次常规的模型发布——Mythos Preview 既不面向公众开放,也没有走通常的产品发布流程,而是作为一个定向网络安全研究工具,授权给 AWS、微软、谷歌、Cisco、CrowdStrike 等超过 40 家机构使用。Anthropic 同步承诺提供 1 亿美元的模型使用额度,用于支持这些机构在防御性网络安全领域的研究工作。
正因如此,Mythos Preview 的定位从一开始就与以往的 Claude 系列不同:它代表的是 Anthropic 当前技术能力的天花板,而非面向市场的产品形态。与之对比的 Claude Opus 4.6,则是 Mythos Preview 披露之前 Anthropic 旗下综合能力最强的可用模型,于 2026 年 2 月发布,定位为推理型大模型。
在编程能力上,差距比预期要大
从 Anthropic 官方公布的评测数据来看,Mythos Preview 与 Opus 4.6 之间的差距在编程类任务上最为显著。在 SWE-bench Verified(通用代码修复基准)上,Mythos Preview 达到 93.9%,Opus 4.6 为 80.8%,提升幅度约 13 个百分点。而在难度更高的 SWE-bench Pro 上,Mythos Preview 得分 77.8%,Opus 4.6 仅为 53.4%,差距扩大至 24 个百分点以上。
多模态代码理解(SWE-bench Multimodal)的数据更为极端:Mythos Preview 59.0% 对比 Opus 4.6 的 27.1%,两者相差超过一倍。Terminal-Bench 2.0 上,Mythos Preview 的 82.0% 对比 Opus 4.6 的 65.4%,延续了这一趋势。
对于专注代码生成与工程自动化的用户来说,这些数字意味着 Mythos Preview 在处理真实工程任务时有质的跃升,而不只是边际改进。
在推理与知识类任务上,差距收窄,但仍领先
GPQA Diamond(研究生水平科学问答)上,Mythos Preview 得 94.6%,Opus 4.6 得 91.3%,差距约 3 个百分点。Humanity's Last Exam(多学科极限知识评测)方面,无工具条件下 Mythos Preview 56.8% 对比 Opus 4.6 的 40.0%;有工具辅助时则分别为 64.7% 和 53.1%。
这说明在纯推理和知识密度较高的任务上,Opus 4.6 并非毫无竞争力——但 Mythos Preview 依然保持明显优势,且在工具使用场景中能更有效地放大自身能力。
BrowseComp(联网信息检索)的结果也值得关注:Mythos Preview 86.9% 对比 Opus 4.6 的 83.7%,得分差距不大,但 Anthropic 特别指出 Mythos Preview 完成同样任务所消耗的 token 数量仅为 Opus 4.6 的五分之一左右,效率优势非常突出。
网络安全能力是 Mythos Preview 的核心差异点
CyberGym(网络安全漏洞复现基准)上,Mythos Preview 83.1% 对比 Opus 4.6 的 66.6%,差距约 17 个百分点。结合 Anthropic 披露的实际应用案例——包括在 OpenBSD、FFmpeg、Linux 内核中发现存在数十年的零日漏洞——这一能力更接近于质变而非量变。Anthropic 的说法是,Mythos Preview 已经能在无需人工干预的情况下自主完成漏洞发现和利用链的构建,且其发现的漏洞中有部分经历了数百万次自动化测试而从未被触发。
这是 Mythos Preview 名字出现在 Project Glasswing 框架下而非常规产品线下的根本原因:能力本身带来了访问限制,而不是相反。
价格:五倍溢价意味着什么
API 定价上,Mythos Preview 输入 $25/百万 tokens,输出 $125/百万 tokens;Opus 4.6 则是输入 $5,输出 $25,价差恰好是五倍。两者均为闭源模型,不支持权重开放。
目前 Mythos Preview 的上下文输出上限为 8192 tokens,明显低于 Opus 4.6 的 131072 tokens——这是当前 Preview 版本的限制,反映其仍处于受控使用阶段,并非最终形态。
应该怎么理解这个对比
Claude Mythos Preview 目前不是一个可以被普通开发者或企业直接调用的模型,Anthropic 也明确表示暂无面向公众开放的计划。这次对比的价值在于:Mythos Preview 作为 Anthropic 当前技术天花板的标定物,让外界第一次看到了它与已有最强商用模型 Opus 4.6 之间的真实距离。编程、安全、多模态理解,是差距最大的三个维度;推理与搜索类任务次之。
Anthropic 表示,他们计划在后续的 Claude Opus 新版本上率先落地 Mythos 级别的部分能力,同步引入新的安全防护机制,作为将 Mythos 级模型推向更大范围商用的过渡步骤。Mythos Preview 更像是一把用来标记终点线位置的尺子,而不是起跑枪。
Best Overall
—
Best Single
—
Thinking 模式(默认)
Claude Mythos Preview · 1 模态支持
模型数据收集自官网、Artificial Analysis等页面
完整列出各模型/模式的评测得分,便于横向比较。
其他能力
是否 MoE、商业授权、模态支持等附加能力对比。
| 功能与规格 | CL Claude Mythos PreviewAnthropic | CL Claude Opus 4.6Anthropic |
|---|---|---|
模型信息卡片 | ||
开发机构 | Anthropic | Anthropic |
模型全名 | Claude Mythos Preview | Anthropic Claude Opus 4.6 |
模型简介 | 未提供 | 未提供 |
模型类型 | 聊天大模型 | 推理大模型 |
模型代号 | claude-mythos-preview | claude-opus-4-6 |
发布时间 | 2026-04-07 | 2026-02-05 |
MoE 架构 | 不支持 | 不支持 |
规格与性能 | ||
上下文 | — | 1000K |
参数量 | — | — |
激活参数量 | 未提供 | 未提供 |
模型规模 | 未知 | 未知 |
模型大小 | 未提供 | 0B |
推理速度 | ||
推理等级 | ||
最大输出 | 8192 | 131072 |
支持模式 | 暂无模式数据 | 暂无模式数据 |
开源与许可 | ||
代码开源 | 未提供 | 未提供 |
权重开源 | 未提供 | 未提供 |
商业授权 | 不开源 | 不开源 |
模态支持 | ||
文本 输入/输出 | / | / |
图片 输入/输出 | 未提供 | 未提供 |
音频 输入/输出 | 未提供 | 未提供 |
视频 输入/输出 | 未提供 | 未提供 |
Embedding 输入/输出 | 未提供 | 未提供 |
API 接口详情 | ||
文本 价格 | 输入: $25 / 1M tokens输出: $125 / 1M tokens | 输入: $5 / 1M tokens输出: $25 / 1M tokensCache: $1 / 1M tokensInput (Extended): $10 / 1M tokensOutput (Extended): $37.5 / 1M tokensThreshold: 200K |
图片 API 价格 | 未提供 | 未提供 |
音频 API 价格 | 未提供 | 未提供 |
视频 API 价格 | 未提供 | 未提供 |
Embedding API 价格 | 未提供 | 未提供 |
资源与链接 | ||
GitHub | 未提供 | 未提供 |
Hugging Face | 未提供 | 未提供 |
官方页面 | 未提供 | 未提供 |
实用指南 | 未提供 | 未提供 |
论文/报告 | Introducing Claude Mythos Preview and Project Glasswing | Introducing Claude Opus 4.6 |
DataLearnerAI | Claude Mythos 是什么?Anthropic最强模型评测、安全能力与Project Glasswing详解 | 未提供 |
API 价格
输入输出 token 价格并排展示