Muse Spark 整体水平接近但还没进头部第一梯队，有两个方向是真实的强项——医疗和多模态图表理解；有一个方向差距明显到不成比例——ARC-AGI-2 抽象推理；智能体编码是公认的短板，Meta 自己也承认了；最值得关注的数字是 Contemplating 深度推理模式下 HLE 排名全球第3，说明计算资源堆上去之后天花板比想象的高。

多模态：图表理解是真正的强项，其余接近但不突出

六项多模态基准里，Muse Spark 只有一项明确领先——CharXiv Reasoning（图表理解）86.4，比第二名 GPT-5.4 的 82.8 高出将近4分，Opus 4.6 只有 65.3，差距极大。这项基准考察的是从复杂学术图表中提取和推理信息的能力，Muse Spark 在这里的优势是实质性的，不是统计噪声。

SimpleVQA（视觉事实性）71.3 仅次于 Gemini 的 72.4，也算得上第二。

但其余四项基本是追着跑的状态：MMMU Pro 落后 Gemini 约3分，ERQA 落后 Gemini 约5分，ScreenSpot Pro 五家扎堆在 83–85 分没有分出高下。ZeroBench（多步视觉推理，pass@5）33.0 是五家里有数据的最低分，GPT-5.4 拿了 41.0。

多模态方向的总体判断：图表理解是一个有说服力的优势，其余项目跟头部差距不大但没有领先优势，整体是"部分领先、其余跟随"的格局。

文本推理：ARC-AGI-2 严重拖分，但 Contemplating 模式的天花板超出预期

这个维度里，两个数字形成了非常鲜明的对比。

先说差的。ARC-AGI-2（抽象归纳推理）42.5，而 GPT-5.4 和 Gemini 都是 77.1，Opus 4.6 是 66.3，Grok 是 53.3。差距超过20分，在 DataLearner 43个参评模型中排名第16。这个基准不考知识，专门考模型从给定规则中归纳抽象模式的能力，Muse Spark 在这里的表现说明它在这类纯推理泛化任务上目前跟头部有代差，不是小差距。

再说超出预期的。HLE（Humanity's Last Exam）是当前公认最难的综合推理基准之一。Muse Spark 在普通 Thinking 模式下是 42.8，处于中游。但切到 Contemplating 模式（多智能体并行推理）之后，分数跳到 58.0，在 DataLearner 128个参评模型中排名第3。Opus 4.6 扩展模式是 53.0，Gemini High 是 51.4，GPT-5.4 是 52.1，全部在它下面。

这个数字说明一件事：Muse Spark 的推理上限在计算资源堆上去之后比默认模式表现出来的要高得多，Contemplating 模式是一个不该被忽视的参数。

GPQA Diamond（博士级推理）89.5，在 DataLearner 166个模型中排名第15，低于 Gemini（94.3）、GPT-5.4（92.8）和 Opus 4.6（92.7），和 Grok（88.5）接近。与头部的3–5分差距是一个稳定存在的区间。LiveCodeBench Pro（竞技编程）80.0，高于 Opus 4.6 的 70.7，低于 Gemini 82.9 和 GPT-5.4 87.5。

医疗：HealthBench Hard 是所有维度里最突出的单项优势

三项医疗基准，Muse Spark 的表现是这次评测里最有说服力的部分。

HealthBench Hard（开放式医疗问答）42.8，而 Opus 4.6 只有 14.8，Gemini 20.6，Grok 20.3，GPT-5.4 40.1。除了 GPT-5.4 勉强接近，其他对手都被拉开了一大截。这不是几分的优势，是数量级上的差距。Meta 在这个方向做了针对性的数据工程——与超过1,000名医生合作整理训练数据，结果也直接反映在分数上。

MedXpertQA 多模态版（医疗图像理解）78.4 同样领先多数对手，仅次于 Gemini 的 81.3。MedXpertQA 文本版 52.6 处于中游，低于 Gemini（71.5）和 GPT-5.4（59.6）。对比两个 MedXpertQA 子项可以看出，Muse Spark 在医疗图像理解上的优势比纯文本医疗知识更明显，和它多模态图表能力较强的特点一致。

医疗方向是 Muse Spark 唯一能说"领先头部"而不是"接近头部"的维度。

智能体：搜索和办公任务还行，编码类任务是公认短板

六项智能体基准，结论非常清楚：非编码任务 Muse Spark 有竞争力，编码任务全面落后。

DeepSearchQA（智能体搜索）74.8 是五家最高分，GDPval-AA（办公综合任务 Elo）1444 在 DataLearner 16个参评模型中排名第2，高于 Gemini 的 1317，说明 Muse Spark 在调用工具完成搜索、整理和结构化办公任务时是真的能用的。

但编码类智能体就是另一回事了。SWE-bench Verified（智能体编码）77.4，低于 Opus 4.6（80.84）和 Gemini（80.6），DataLearner 排名第14（95个模型）。Terminal-Bench 2.0（终端编码）59.0，五家里垫底，GPT-5.4 是 75.1，差了整整16分。τ²-Bench Telecom（工具调用）92.0 看起来不低，但因为 Opus 4.6（99.25）、GPT-5.4（98.9）、Gemini（99.3）都堆在99分附近，92分实际上是明显脱队的。

Meta 在官方技术文档里主动点名了"长链路智能体系统和代码工作流"是当前的性能缺口，评测数据完全印证了这一点。

数据可信度

以上数据来自 Meta 官方技术博客，部分对比数字标注了"Self-Reported"（各家自行提交，非统一第三方评测）。更重要的背景是：Llama 4 发布时曾因使用专门微调的内部版本提交基准而被独立研究者揭露，Muse Spark 的数字目前尚待独立机构复现，这是阅读本文所有数据时应该保留的前提。

总结

Muse Spark 不是一个各项均衡的模型。医疗问答和图表理解是有数据支撑的真实强项；Contemplating 模式下的综合推理天花板比默认模式高得多，HLE 全球排名第3是这次发布里最值得关注的单个数字；ARC-AGI-2 的差距悬殊，说明在抽象推理泛化能力上与头部还有代差；智能体编码是全面落后，不是差一点。整体来看，Muse Spark 是一个在特定领域有竞争力、但还没有能力在所有维度上挑战 GPT-5.4 和 Gemini 3.1 Pro 的模型。

评测项	Muse Spark当前	Claude Opus 4.6	GPT-5.4	Gemini 3.1 Pro Preview
ARC-AGI-2 综合评估	42.50开启思考	66.30扩展思考	77.10常规模式	--
GPQA Diamond 综合评估	89.50开启思考	91.31扩展思考	--	--
HLE 综合评估	58.00深度思考模式	53.00扩展思考｜工具	52.10思考水平·极高｜工具	51.40思考水平·高｜工具
SWE-bench Verified 编程与软件工程	77.40开启思考｜工具	80.84扩展思考｜工具	--	80.60思考水平·高｜工具
FrontierMath 数学推理	39.00开启思考	40.70思考水平·高	--	--
FrontierMath - Tier 4 数学推理	14.60常规模式	22.90思考水平·高	27.10思考水平·极高	16.70常规模式
τ²-Bench - Telecom Agent能力评测	92.00开启思考｜工具	99.25扩展思考｜工具	98.90思考水平·极高｜工具	99.30思考水平·高｜工具
MCP-Atlas AI Agent - 工具使用	82.20常规模式｜工具	76.80深度思考模式｜工具	70.60思考水平·极高｜工具	--
Terminal Bench 2.0 AI Agent - 工具使用	59.00开启思考｜工具	65.40扩展思考｜工具	75.10思考水平·极高｜工具	68.50思考水平·高｜工具
GDPval-AA 生产力知识	1444.00开启思考｜工具	1606.00扩展思考｜工具	--	--

模型	供应商	标准输入	标准输出	标准价适用于
Claude Opus 4.6	Anthropic	$5 / 1M tokens	$25 / 1M tokens	<= 200K
GPT-5.4	OpenAI	$2.5 / 1M tokens	$15 / 1M tokens	<= 272K
Gemini 3.1 Pro Preview	Google Deep Mind	$2 / 1M tokens	$12 / 1M tokens	<= 200K

Muse Spark 评测深度分析

评测结果

评测结果

综合评估

编程与软件工程

数学推理

Agent能力评测

AI Agent - 工具使用

生产力知识

竞品对比

Muse Spark 与同类模型的标准 API 价格对比

数据来源