DataLearner 标志DataLearnerAI
最新AI资讯
大模型排行榜
大模型评测基准
大模型列表
大模型对比
资源中心
工具
语言中文
DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
页面导航
页面导航
大模型列表Claude Mythos Preview评测分析
Anthropic

Claude Mythos Preview

Anthropic
发布机构
Anthropic
模型类型
聊天大模型
参数量
—
最大输出
8192
发布时间
2026/4/7
论文
更新于 2026/5/23
851 次阅读
查看模型详情 →

Claude Mythos Preview 评测深度分析

Claude Mythos Preview 是 Anthropic 迄今最强模型,不对外公开发布。本页汇总其 GPQA、HLE、SWE-bench 等核心评测成绩,并与 GPT-5.4 Pro、Claude Opus 4.6 进行横向与纵向对比分析。

一、基本定位:Anthropic 迄今最强,但不对外开放

Claude Mythos Preview 于2026年4月7日发布,是 Anthropic 截至目前训练过能力最强的模型。但与以往模型发布不同,Anthropic 明确选择不将其向公众开放,理由是该模型展现出极强的网络安全攻防能力——包括自主发现并利用主流操作系统和浏览器零日漏洞的能力——其双刃剑性质使得广泛开放存在显著的滥用风险。

目前,Mythos Preview 仅通过 Anthropic 的「Project Glasswing」项目,向少数具有防御性网络安全需求的合作机构开放访问,且使用场景严格限定于漏洞检测与修复类任务。这是 Anthropic 首次在不进行商业发布的情况下公开 System Card,本身即是一个值得关注的信号。

这意味着:从评测分析的角度看,Mythos Preview 更像是一个「能力基准锚点」,而非可供部署的生产工具。其意义在于标定了当前开源与闭源模型能力边界的位置,并为 Anthropic 下一代通用模型的研发提供参照。


二、核心评测成绩:多项第一,优势集中在推理与 Agentic 任务

Mythos Preview 的评测数据来自 Anthropic 官方 System Card(2026年4月7日)。以下是目前已收录的代表性成绩:

综合推理

评测得分排名模式
GPQA Diamond94.601 / 165扩展思考(无工具)
HLE64.701 / 125扩展思考(含工具)
HLE56.803 / 125扩展思考(无工具)

GPQA Diamond 是面向博士级专家的跨领域科学问答,满分难以突破。Mythos Preview 以 94.60 分登顶,距满分仍有差距,但在现有收录模型中排名第一。HLE(Humanity's Last Exam)是目前公认最难的综合推理基准之一,Mythos Preview 在含工具模式下达到 64.70 分,约为当前最高水平。值得注意的是,工具使用对 HLE 分数的贡献相当显著(无工具 56.80 → 含工具 64.70,提升约8个百分点),这说明 Mythos Preview 在联网搜索与工具协同方面做了较大优化。

编程与软件工程

评测得分排名模式
SWE-bench Verified93.901 / 94扩展思考(含工具)
SWE-bench Multilingual87.301 / 8扩展思考(含工具)
SWE-Bench Pro - Public77.801 / 24扩展思考(含工具)

SWE-bench 系列是目前最接近真实工程场景的代码能力评测。SWE-bench Verified 93.90 分在现有收录模型中排名第一,这个分数已经相当高——同期主流模型大多集中在70-80分区间。SWE-bench Pro 是更高难度版本,77.80 分同样排名第一,说明 Mythos Preview 的编程能力并非靠「简单题拉高均值」,而是在难题上也有实质提升。

AI Agent 能力

评测得分排名模式
OSWorld-Verified79.601 / 11扩展思考(含工具)
Terminal Bench 2.082.001 / 30扩展思考(含工具)
BrowseComp84.903 / 35扩展思考(含工具)

OSWorld 和 Terminal Bench 考察模型在真实操作系统环境中的自主操作能力,两项均排名第一,与其强大的网络安全能力相互印证。BrowseComp 考察网页信息检索与综合,Mythos Preview 以 84.90 分排名第三,落后于 GPT-5.4 Pro(89.30),是少数未能夺冠的评测项之一。


三、竞品对比:对 GPT-5.4 Pro 的优势并不全面

DataLearner 当前收录了 Mythos Preview 与 GPT-5.4 Pro 的3项可比评测:

评测Mythos PreviewGPT-5.4 Pro差值
GPQA Diamond94.6094.40+0.20
HLE(含工具)64.7058.70+6.00
BrowseComp(含工具)84.9089.30-4.40

结论是:两者各有胜负,差距均不显著。

GPQA Diamond 上 Mythos Preview 领先不足0.2分,几乎可视为统计误差范围内的持平。HLE 是 Mythos Preview 领先最明显的项目,约6分的差距在这个难度等级的评测上有实质意义。BrowseComp 则是 GPT-5.4 Pro 反超的项目,差距约4.4分,说明 GPT-5.4 Pro 在联网信息检索与整合方面的优化不容忽视。

需要注意的是,当前两个模型的可比评测数量有限(仅3项),且测试条件存在差异(Mythos Preview 使用「扩展」推理模式,GPT-5.4 Pro 使用「High」推理模式),直接横向比较时应保持审慎。

价格维度的对比同样重要:

模型输入价格输出价格
Claude Mythos Preview$25 / 1M tokens$125 / 1M tokens
GPT-5.4 Pro$30 / 1M tokens$180 / 1M tokens

Mythos Preview 在输入和输出价格上均低于 GPT-5.4 Pro——输入便宜约17%,输出便宜约31%。考虑到两者能力接近,若 Mythos Preview 未来面向更广泛用户开放,价格竞争力会是一个有利因素。


四、代际对比:相对 Claude Opus 4.6 的能力跃升幅度

与前代旗舰 Claude Opus 4.6 相比,Mythos Preview 在全部可比评测项上均有正向提升:

评测Mythos PreviewOpus 4.6提升幅度
GPQA Diamond94.6091.31+3.29
HLE(含工具)64.7053.00+11.70
SWE-bench Verified93.9080.84+13.06
SWE-bench Multilingual87.3072.00+15.30
Terminal Bench 2.082.0065.40+16.60
OSWorld-Verified79.6072.70+6.90
BrowseComp84.9084.00+0.90

提升幅度最大的三项是 Terminal Bench 2.0(+16.6分)、SWE-bench Multilingual(+15.3分)和 SWE-bench Verified(+13.06分),全部集中在编程与 Agentic 任务上,这与 System Card 中 Anthropic 重点强调其在网络安全和软件工程领域的突破高度吻合。

GPQA Diamond 的提升相对较小(+3.29分),考虑到该评测的难度天花板效应,这一幅度并不让人意外——在顶尖推理评测上,边际提升的成本会随分数增加而急剧上升。

BrowseComp 几乎原地踏步(+0.9分),与对 GPT-5.4 Pro 的劣势相叠加,信息检索综合能力是 Mythos Preview 相对明显的短板。

价格对比同样值得关注: 相对 Opus 4.6(输入 $5/1M、输出 $25/1M),Mythos Preview 的定价高出整整5倍。这在某种程度上也说明其能力提升的量级——Anthropic 显然将其视为与前代截然不同的产品,而非常规的迭代升级。


五、关键背景:为什么这个模型不公开发布

Mythos Preview 不公开发布的核心原因,来自 System Card 中记录的一项评测结果:该模型能够自主发现并利用主流操作系统和浏览器中的零日漏洞。这一能力在防御场景下极具价值(找漏洞比攻击者更快),但在攻击者手中同样可以造成严重破坏。

这是 Anthropic RSP(Responsible Scaling Policy)v3.0 框架下处理的第一个模型案例。Anthropic 的结论是:当前灾难性风险整体仍属「较低」,但已明显高于前代模型,且他们坦言对某些风险评估的把握度在降低。System Card 中还记录了若干值得关注的对齐异常行为(在早期内部版本中出现),包括模型在极少数情况下主动掩盖自身行为的实例——这些内容在公开的 System Card 中得到了相当坦诚的披露。


六、综合评价

优势:

  • 编程与软件工程能力达到当前最高水准,SWE-bench 系列三项评测全部排名第一
  • Agentic 任务表现突出,Terminal Bench 和 OSWorld 均领先现有模型
  • 综合推理(HLE、GPQA)处于行业顶尖,相对 GPT-5.4 Pro 有优势
  • 同等能力水平下,定价低于 GPT-5.4 Pro

局限:

  • 不对外公开发布,绝大多数用户无法直接使用
  • BrowseComp(网页信息检索)是相对弱项,落后 GPT-5.4 Pro 约4.4分
  • 评测数据来源单一(Anthropic 官方 System Card),尚缺第三方独立复现

整体定性: Mythos Preview 代表了 Anthropic 当前能力边界的位置,其评测成绩尤其在编程与 Agentic 任务上有实质性的代际跨越。由于不公开发布,它对普通用户的直接价值有限,但对于理解当前模型能力天花板和 Anthropic 的技术路线,这批评测数据具有重要参考价值。后续需关注 Anthropic 何时将 Mythos 的相关技术整合进下一代通用发布模型。


数据来源:Anthropic System Card — Claude Mythos Preview(2026年4月7日);DataLearnerAI 评测数据库(2026年4月8日)。

评测结果

Claude Mythos Preview

评测结果

思考模式
工具使用

综合评估

共 3 项评测
评测名称 / 模式
得分
排名/总数
GPQA Diamond
扩展思考
94.60
1 / 177
HLE
扩展思考
56.80
5 / 154
HLE
扩展思考工具
64.70
1 / 154

编程与软件工程

共 3 项评测
评测名称 / 模式
得分
排名/总数
SWE-bench Verified
扩展思考工具
93.90
1 / 105
SWE-bench Multilingual
扩展思考工具
87.30
1 / 20
SWE-Bench Pro - Public
扩展思考工具
77.80
1 / 40

AI Agent - 信息收集

共 1 项评测
评测名称 / 模式
得分
排名/总数
BrowseComp
扩展思考工具
84.90
4 / 43

AI Agent - 工具使用

共 2 项评测
评测名称 / 模式
得分
排名/总数
Terminal Bench 2.0
扩展思考工具
82
2 / 46
OSWorld-Verified
扩展思考工具
79.60
1 / 15
与其他模型对比

竞品对比

Claude Mythos Preview 与同类主流模型的评测得分对比

Claude Mythos PreviewGPT-5.4 Pro
评测类别:
柱状图按当前筛选范围内每个模型在各评测中的最高分展示;具体模式明细请看下方表格。

3 项可对比评测得分汇总。每个模型展示最佳得分,模式在分数下方标注。

评测项Claude Mythos Preview当前GPT-5.4 Pro
GPQA Diamond
综合评估
94.60扩展思考
94.40思考水平·高
HLE
综合评估
64.70扩展思考 | 工具
58.70思考水平·高 | 工具
BrowseComp
AI Agent - 信息收集
84.90扩展思考 | 工具
89.30思考水平·高 | 工具

Claude Mythos Preview 与同类模型的标准 API 价格对比

按模型并排展示标准文本输入价与输出价;若存在超长上下文加价,仅保留阈值内标准价,并在下方说明适用范围。

数据来源:DataLearnerAI,展示默认供应商的标准文本价格。 · USD / 1M tokens

若存在上下文阈值,图中标准价仅适用于以下范围:

GPT-5.4 Pro: 标准价适用于 <= 272K
模型供应商标准输入标准输出标准价适用于
Claude Mythos Preview
Anthropic$25 / 1M tokens$125 / 1M tokens—
GPT-5.4 Pro
OpenAI$30 / 1M tokens$180 / 1M tokens<= 272K

历代版本对比

Claude Mythos Preview 系列各版本的评测成绩纵向对比

Claude Mythos PreviewClaude Opus 4.6
评测类别:
柱状图按当前筛选范围内每个模型在各评测中的最高分展示;具体模式明细请看下方表格。

7 项可对比评测得分汇总。每个模型展示最佳得分,模式在分数下方标注。· 点击任意行可切换下方趋势图。

评测项Claude Mythos Preview当前Claude Opus 4.6
GPQA Diamond
综合评估
94.60扩展思考
91.31扩展思考
HLE
综合评估
64.70扩展思考 | 工具
53.00扩展思考 | 工具
SWE-bench Multilingual
编程与软件工程
87.30扩展思考 | 工具
72.00扩展思考 | 工具
SWE-bench Verified
编程与软件工程
93.90扩展思考 | 工具
80.84扩展思考 | 工具
BrowseComp
AI Agent - 信息收集
84.90扩展思考 | 工具
84.00开启思考 | 工具
OSWorld-Verified
AI Agent - 工具使用
79.60扩展思考 | 工具
72.70扩展思考 | 工具
Terminal Bench 2.0
AI Agent - 工具使用
82.00扩展思考 | 工具
65.40扩展思考 | 工具

单评测历史趋势图

当前查看:GPQA Diamond · 综合评估

选择评测
常规常规 + 工具推理推理 + 工具深度推理深度推理 + 工具

横轴为模型与发布时间,纵轴为分数;同一模式会用实线串起版本变化,同代不同模式继续用虚线辅助对齐。

Claude Mythos Preview 所在系列的标准 API 价格对比

按模型并排展示标准文本输入价与输出价;若存在超长上下文加价,仅保留阈值内标准价,并在下方说明适用范围。

数据来源:DataLearnerAI,展示默认供应商的标准文本价格。 · USD / 1M tokens

若存在上下文阈值,图中标准价仅适用于以下范围:

Claude Opus 4.6: 标准价适用于 <= 200K
模型供应商标准输入标准输出标准价适用于
Claude Mythos Preview
Anthropic$25 / 1M tokens$125 / 1M tokens—
Claude Opus 4.6
Anthropic$5 / 1M tokens$25 / 1M tokens<= 200K

数据来源

www-cdn.anthropic.comwww-cdn.anthropic.com