Muse Spark 整体水平接近但还没进头部第一梯队,有两个方向是真实的强项——医疗和多模态图表理解;有一个方向差距明显到不成比例——ARC-AGI-2 抽象推理;智能体编码是公认的短板,Meta 自己也承认了;最值得关注的数字是 Contemplating 深度推理模式下 HLE 排名全球第3,说明计算资源堆上去之后天花板比想象的高。
多模态:图表理解是真正的强项,其余接近但不突出
六项多模态基准里,Muse Spark 只有一项明确领先——CharXiv Reasoning(图表理解)86.4,比第二名 GPT-5.4 的 82.8 高出将近4分,Opus 4.6 只有 65.3,差距极大。这项基准考察的是从复杂学术图表中提取和推理信息的能力,Muse Spark 在这里的优势是实质性的,不是统计噪声。
SimpleVQA(视觉事实性)71.3 仅次于 Gemini 的 72.4,也算得上第二。
但其余四项基本是追着跑的状态:MMMU Pro 落后 Gemini 约3分,ERQA 落后 Gemini 约5分,ScreenSpot Pro 五家扎堆在 83–85 分没有分出高下。ZeroBench(多步视觉推理,pass@5)33.0 是五家里有数据的最低分,GPT-5.4 拿了 41.0。
多模态方向的总体判断:图表理解是一个有说服力的优势,其余项目跟头部差距不大但没有领先优势,整体是"部分领先、其余跟随"的格局。
文本推理:ARC-AGI-2 严重拖分,但 Contemplating 模式的天花板超出预期
这个维度里,两个数字形成了非常鲜明的对比。
先说差的。ARC-AGI-2(抽象归纳推理)42.5,而 GPT-5.4 和 Gemini 都是 77.1,Opus 4.6 是 66.3,Grok 是 53.3。差距超过20分,在 DataLearner 43个参评模型中排名第16。这个基准不考知识,专门考模型从给定规则中归纳抽象模式的能力,Muse Spark 在这里的表现说明它在这类纯推理泛化任务上目前跟头部有代差,不是小差距。
再说超出预期的。HLE(Humanity's Last Exam)是当前公认最难的综合推理基准之一。Muse Spark 在普通 Thinking 模式下是 42.8,处于中游。但切到 Contemplating 模式(多智能体并行推理)之后,分数跳到 58.0,在 DataLearner 128个参评模型中排名第3。Opus 4.6 扩展模式是 53.0,Gemini High 是 51.4,GPT-5.4 是 52.1,全部在它下面。
这个数字说明一件事:Muse Spark 的推理上限在计算资源堆上去之后比默认模式表现出来的要高得多,Contemplating 模式是一个不该被忽视的参数。
GPQA Diamond(博士级推理)89.5,在 DataLearner 166个模型中排名第15,低于 Gemini(94.3)、GPT-5.4(92.8)和 Opus 4.6(92.7),和 Grok(88.5)接近。与头部的3–5分差距是一个稳定存在的区间。LiveCodeBench Pro(竞技编程)80.0,高于 Opus 4.6 的 70.7,低于 Gemini 82.9 和 GPT-5.4 87.5。
医疗:HealthBench Hard 是所有维度里最突出的单项优势
三项医疗基准,Muse Spark 的表现是这次评测里最有说服力的部分。
HealthBench Hard(开放式医疗问答)42.8,而 Opus 4.6 只有 14.8,Gemini 20.6,Grok 20.3,GPT-5.4 40.1。除了 GPT-5.4 勉强接近,其他对手都被拉开了一大截。这不是几分的优势,是数量级上的差距。Meta 在这个方向做了针对性的数据工程——与超过1,000名医生合作整理训练数据,结果也直接反映在分数上。
MedXpertQA 多模态版(医疗图像理解)78.4 同样领先多数对手,仅次于 Gemini 的 81.3。MedXpertQA 文本版 52.6 处于中游,低于 Gemini(71.5)和 GPT-5.4(59.6)。对比两个 MedXpertQA 子项可以看出,Muse Spark 在医疗图像理解上的优势比纯文本医疗知识更明显,和它多模态图表能力较强的特点一致。
医疗方向是 Muse Spark 唯一能说"领先头部"而不是"接近头部"的维度。
智能体:搜索和办公任务还行,编码类任务是公认短板
六项智能体基准,结论非常清楚:非编码任务 Muse Spark 有竞争力,编码任务全面落后。
DeepSearchQA(智能体搜索)74.8 是五家最高分,GDPval-AA(办公综合任务 Elo)1444 在 DataLearner 16个参评模型中排名第2,高于 Gemini 的 1317,说明 Muse Spark 在调用工具完成搜索、整理和结构化办公任务时是真的能用的。
但编码类智能体就是另一回事了。SWE-bench Verified(智能体编码)77.4,低于 Opus 4.6(80.84)和 Gemini(80.6),DataLearner 排名第14(95个模型)。Terminal-Bench 2.0(终端编码)59.0,五家里垫底,GPT-5.4 是 75.1,差了整整16分。τ²-Bench Telecom(工具调用)92.0 看起来不低,但因为 Opus 4.6(99.25)、GPT-5.4(98.9)、Gemini(99.3)都堆在99分附近,92分实际上是明显脱队的。
Meta 在官方技术文档里主动点名了"长链路智能体系统和代码工作流"是当前的性能缺口,评测数据完全印证了这一点。
数据可信度
以上数据来自 Meta 官方技术博客,部分对比数字标注了"Self-Reported"(各家自行提交,非统一第三方评测)。更重要的背景是:Llama 4 发布时曾因使用专门微调的内部版本提交基准而被独立研究者揭露,Muse Spark 的数字目前尚待独立机构复现,这是阅读本文所有数据时应该保留的前提。
总结
Muse Spark 不是一个各项均衡的模型。医疗问答和图表理解是有数据支撑的真实强项;Contemplating 模式下的综合推理天花板比默认模式高得多,HLE 全球排名第3是这次发布里最值得关注的单个数字;ARC-AGI-2 的差距悬殊,说明在抽象推理泛化能力上与头部还有代差;智能体编码是全面落后,不是差一点。整体来看,Muse Spark 是一个在特定领域有竞争力、但还没有能力在所有维度上挑战 GPT-5.4 和 Gemini 3.1 Pro 的模型。