热门大模型对比：Claude Mythos Preview 与 Opus 4.6 的基本信息和评测数据全面对比

Claude Mythos Preview vs Claude Opus 4.6：Anthropic 迄今最强模型，能力跨越了多少？

2026 年 4 月 7 日，Anthropic 通过 Project Glasswing 正式披露了 Claude Mythos Preview 的存在。这不是一次常规的模型发布——Mythos Preview 既不面向公众开放，也没有走通常的产品发布流程，而是作为一个定向网络安全研究工具，授权给 AWS、微软、谷歌、Cisco、CrowdStrike 等超过 40 家机构使用。Anthropic 同步承诺提供 1 亿美元的模型使用额度，用于支持这些机构在防御性网络安全领域的研究工作。

正因如此，Mythos Preview 的定位从一开始就与以往的 Claude 系列不同：它代表的是 Anthropic 当前技术能力的天花板，而非面向市场的产品形态。与之对比的 Claude Opus 4.6，则是 Mythos Preview 披露之前 Anthropic 旗下综合能力最强的可用模型，于 2026 年 2 月发布，定位为推理型大模型。

在编程能力上，差距比预期要大

从 Anthropic 官方公布的评测数据来看，Mythos Preview 与 Opus 4.6 之间的差距在编程类任务上最为显著。在 SWE-bench Verified（通用代码修复基准）上，Mythos Preview 达到 93.9%，Opus 4.6 为 80.8%，提升幅度约 13 个百分点。而在难度更高的 SWE-bench Pro 上，Mythos Preview 得分 77.8%，Opus 4.6 仅为 53.4%，差距扩大至 24 个百分点以上。

多模态代码理解（SWE-bench Multimodal）的数据更为极端：Mythos Preview 59.0% 对比 Opus 4.6 的 27.1%，两者相差超过一倍。Terminal-Bench 2.0 上，Mythos Preview 的 82.0% 对比 Opus 4.6 的 65.4%，延续了这一趋势。

对于专注代码生成与工程自动化的用户来说，这些数字意味着 Mythos Preview 在处理真实工程任务时有质的跃升，而不只是边际改进。

在推理与知识类任务上，差距收窄，但仍领先

GPQA Diamond（研究生水平科学问答）上，Mythos Preview 得 94.6%，Opus 4.6 得 91.3%，差距约 3 个百分点。Humanity's Last Exam（多学科极限知识评测）方面，无工具条件下 Mythos Preview 56.8% 对比 Opus 4.6 的 40.0%；有工具辅助时则分别为 64.7% 和 53.1%。

这说明在纯推理和知识密度较高的任务上，Opus 4.6 并非毫无竞争力——但 Mythos Preview 依然保持明显优势，且在工具使用场景中能更有效地放大自身能力。

BrowseComp（联网信息检索）的结果也值得关注：Mythos Preview 86.9% 对比 Opus 4.6 的 83.7%，得分差距不大，但 Anthropic 特别指出 Mythos Preview 完成同样任务所消耗的 token 数量仅为 Opus 4.6 的五分之一左右，效率优势非常突出。

网络安全能力是 Mythos Preview 的核心差异点

CyberGym（网络安全漏洞复现基准）上，Mythos Preview 83.1% 对比 Opus 4.6 的 66.6%，差距约 17 个百分点。结合 Anthropic 披露的实际应用案例——包括在 OpenBSD、FFmpeg、Linux 内核中发现存在数十年的零日漏洞——这一能力更接近于质变而非量变。Anthropic 的说法是，Mythos Preview 已经能在无需人工干预的情况下自主完成漏洞发现和利用链的构建，且其发现的漏洞中有部分经历了数百万次自动化测试而从未被触发。

这是 Mythos Preview 名字出现在 Project Glasswing 框架下而非常规产品线下的根本原因：能力本身带来了访问限制，而不是相反。

价格：五倍溢价意味着什么

API 定价上，Mythos Preview 输入 $25/百万 tokens，输出 $125/百万 tokens；Opus 4.6 则是输入 $5，输出 $25，价差恰好是五倍。两者均为闭源模型，不支持权重开放。

目前 Mythos Preview 的上下文输出上限为 8192 tokens，明显低于 Opus 4.6 的 131072 tokens——这是当前 Preview 版本的限制，反映其仍处于受控使用阶段，并非最终形态。

应该怎么理解这个对比

Claude Mythos Preview 目前不是一个可以被普通开发者或企业直接调用的模型，Anthropic 也明确表示暂无面向公众开放的计划。这次对比的价值在于：Mythos Preview 作为 Anthropic 当前技术天花板的标定物，让外界第一次看到了它与已有最强商用模型 Opus 4.6 之间的真实距离。编程、安全、多模态理解，是差距最大的三个维度；推理与搜索类任务次之。

Anthropic 表示，他们计划在后续的 Claude Opus 新版本上率先落地 Mythos 级别的部分能力，同步引入新的安全防护机制，作为将 Mythos 级模型推向更大范围商用的过渡步骤。Mythos Preview 更像是一把用来标记终点线位置的尺子，而不是起跑枪。

评测项	Claude Mythos Preview	Claude Opus 4.6
GPQA Diamond 综合评估	94.60扩展思考	91.31扩展思考
HLE 综合评估	64.70扩展思考｜工具	53.00扩展思考｜工具
SWE-bench Multilingual 编程与软件工程	87.30扩展思考｜工具	72.00扩展思考｜工具
SWE-bench Verified 编程与软件工程	93.90扩展思考｜工具	80.84扩展思考｜工具
BrowseComp AI Agent - 信息收集	84.90扩展思考｜工具	84.00开启思考｜工具
OSWorld-Verified AI Agent - 工具使用	79.60扩展思考｜工具	72.70扩展思考｜工具
Terminal Bench 2.0 AI Agent - 工具使用	82.00扩展思考｜工具	65.40扩展思考｜工具

功能与规格	Claude Mythos PreviewAnthropic	Claude Opus 4.6Anthropic
核心规格发布时间	2026-04-07	2026-02-05
上下文	—	1000K
最大输出	8192	65536
MoE 架构	不支持	不支持
开源与许可代码开源	未提供	未提供
权重开源	未提供	未提供
商业授权	不开源	不开源
模态支持文本输入/输出	/	/
图片输入/输出	/	/
资料来源论文 / 报告	Introducing Claude Mythos Preview and Project Glasswing	Introducing Claude Opus 4.6
DataLearner 博客	Claude Mythos 是什么？Anthropic最强模型评测、安全能力与Project Glasswing详解	未提供

Claude Mythos Preview 与 Opus 4.6 的基本信息和评测数据全面对比

能力分布概览

性能评测对比

评测得分表格

API 价格对比

能力与规格明细