Muse SparkvsClaude Opus 4.6

在 9 个共同 benchmark 中,Claude Opus 4.6 整体领先:Muse Spark 领先 1 项,Claude Opus 4.6 领先 8 项,持平 0 项,平均分差 -23.30。

Facebook AI研究实验室
Muse Spark

Facebook AI研究实验室 · 2026-04-08 · 推理大模型

Anthropic
Claude Opus 4.6

Anthropic · 2026-02-05 · 推理大模型

Muse Spark1 (11%)(89%)8 Claude Opus 4.6

评测分数

按能力类目分组,每组内按分差大小排列;共 9 项。

General Knowledge

Claude Opus 4.6 领先 2/3
评测项Muse SparkClaude Opus 4.6分差
ARC-AGI-242.5025 / 59Thinking (No Tools)66.3015 / 59Extended (no tools)-23.80
HLE584 / 157深度思考(无工具、并行)5311 / 157Extended (with tools, internet)+5
GPQA Diamond89.5022 / 178Thinking (No Tools)91.3114 / 178Extended (no tools)-1.81

Math and Reasoning

Claude Opus 4.6 领先 2/2
评测项Muse SparkClaude Opus 4.6分差
FrontierMath - Tier 414.6023 / 80Normal (No Tools)22.9012 / 80最高(无工具)-8.30
FrontierMath399 / 60Thinking (No Tools)40.707 / 60最高(无工具)-1.70

Agent Level Benchmark

Claude Opus 4.6 领先 1/1
评测项Muse SparkClaude Opus 4.6分差
τ²-Bench - Telecom9220 / 35Thinking (With Tools)99.252 / 35Extended (with tools)-7.25

AI Agent - Tool Usage

Claude Opus 4.6 领先 1/1
评测项Muse SparkClaude Opus 4.6分差
Terminal Bench 2.05924 / 46Thinking (With Tools)65.4011 / 46Extended (with tools)-6.40

Coding and Software Engineer

Claude Opus 4.6 领先 1/1
评测项Muse SparkClaude Opus 4.6分差
SWE-bench Verified77.4024 / 108Thinking (With Tools)80.849 / 108Extended (with tools)-3.44

Productivity Knowledge

Claude Opus 4.6 领先 1/1
评测项Muse SparkClaude Opus 4.6分差
GDPval-AA1,4445 / 21Thinking (With Tools)1,6063 / 21Extended (with tools, internet)-162

规格对比

字段Muse SparkClaude Opus 4.6
发布机构Facebook AI研究实验室Anthropic
发布时间2026-04-082026-02-05
模型类型推理大模型推理大模型
架构稠密模型稠密模型
参数规模暂无数据暂无数据
上下文长度262K1000K
最大输出暂无数据64K

API 调用价格

价格优先使用 DataLearner 配置的 API 记录;缺失项不做推测。

价格项Muse SparkClaude Opus 4.6
文本输入暂无公开价格$0.5 / 1M tokens
文本输出暂无公开价格$25 / 1M tokens
缓存读取暂无公开价格$0.5 / 1M tokens
缓存写入暂无公开价格$10 / 1M tokens

部分模型公开价格不完整,缺失字段按"暂无公开价格"展示。

小结

  • Claude Opus 4.6在以下类目领先:General Knowledge (2/3)、Math and Reasoning (2/2)、Agent Level Benchmark (1/1)、AI Agent - Tool Usage (1/1)、Coding and Software Engineer (1/1)、Productivity Knowledge (1/1)

9 个共同 benchmark 上,Claude Opus 4.6 平均高出 23.30 分。

单项差距最大的 benchmark:GDPval-AA — Muse Spark 1,444,Claude Opus 4.6 1,606(分差 -162)。

本页正文由结构化模型、价格与 benchmark 数据生成,不使用实时 LLM 撰写。