Muse Spark by Meta Superintelligence Labs
Meta Muse Spark 是 Meta Superintelligence Labs 于 2026 年 4 月发布的首款模型,也是 Llama 4 失利后 Meta 全面重建 AI 研发体系的第一个对外成果。模型由首席 AI 官 Alexandr Wang 领导团队历时九个月开发完成,原生支持多模态输入,内置多智能体并行推理机制。基准测试中,Muse Spark 在医疗问答(HealthBench Hard 42.8%)和图表理解(CharXiv Reasoning 86.4)上表现突出,整体推理和智能体编码能力与 GPT-5.4、Gemini 3.1 Pro 仍有差距。Meta 将其定位为 Muse 系列的起点,更大规模的后续模型已在开发中。
数据优先来自官方发布(GitHub、Hugging Face、论文),其次为评测基准官方结果,最后为第三方评测机构数据。 了解数据收集方法
2026年4月8日,Meta 正式发布 Muse Spark,这是其新成立的 Meta Superintelligence Labs(MSL)推出的第一个模型,也是 Meta 在 Llama 4 遭受广泛批评后的核心反击动作。
背景:Muse Spark 是什么来历
Muse Spark 的内部代号是 Avocado,历时九个月开发完成。它不属于 Llama 系列,而是 Meta 全新启动的 Muse 系列第一款产品。
这背后有一个明确的组织背景:2025年6月,Meta 以143亿美元收购了数据标注公司 Scale AI 49% 的非投票股权,并将 Scale AI 创始人兼 CEO Alexandr Wang 引入 Meta,出任首席 AI 官(CAO)——这也是 Meta 历史上设立的第一个 CAO 职位。Muse Spark 是 Wang 领导 MSL 团队交出的第一份成绩单。
Meta 官方将 Muse Spark 定位为"通往个人超级智能的第一步",并明确说明这是一个"小而快"的起始模型,更大规模的后续模型已在开发中。换句话说,Muse Spark 在 Meta 的技术路线图中是探路者,不是旗舰。
模型能力:多模态原生,多智能体并行推理
从技术架构看,Muse Spark 是一个原生多模态推理模型,支持文本、图像和语音输入,当前输出仅限文本。核心能力包括:工具调用(tool-use)、视觉思维链(visual chain of thought)和多智能体编排(multi-agent orchestration)。
推理模式上,Muse Spark 提供两种主要模式:
Meta 的技术解释是:为了在不大幅增加延迟的情况下扩展测试时推理算力,可以通过增加并行协作智能体的数量来实现——这和 Gemini Deep Think 或 GPT Pro 的思路一脉相承。
Contemplating 模式的基准结果:
这两个数字是 Contemplating 模式下的性能,对应的是 Meta 所说的"极端推理模式"对比赛道。
基准表现:健康领域拿下第一,推理整体略落后头部
Meta 发布了主要基准对比数据,以下是关键数字:
基准Muse SparkGPT-5.4Claude Opus 4.6Gemini 3.1 Pro
GPQA Diamond(博士级推理)89.5%92.8%92.7%94.3%
HealthBench Hard(医疗)42.8%略低明显更低明显更低
GPQA Diamond 上,Muse Spark 的 89.5% 落后于三家主要竞争对手,差距在 3-5 个百分点。HealthBench Hard 则是 Muse Spark 的强项,42.8% 超过所有对手,这与 Meta 在医疗数据上的针对性投入直接相关——官方披露了与超过 1,000 名医生合作整理训练数据的细节。
Meta 在官方技术博客中主动承认了短板:长链路智能体任务和代码工作流是当前的明显性能缺口,这两个方向仍在持续投入中。
视觉能力是差异化方向之一
Meta 重点强调了 Muse Spark 的多模态视觉能力,具体场景包括:
这些能力目前通过图像输入触发,输出仍为文本或交互式内容。
部署范围:闭源为主,开源版本后续跟进
与 Llama 系列完全开放权重不同,Muse Spark 目前是闭源部署:
Axios 是最早确认开源计划的媒体之一。这意味着 Meta 在这一代模型上走的是"先闭源部署、后开源"的路线,与其 Llama 系列从一开始就完全开放权重的策略明显不同。
目前所有模式均免费,但 Meta 可能会在后续引入使用频率限制。
隐私问题值得关注
使用 Muse Spark 需要用 Facebook 或 Instagram 账号登录。Meta 官方没有明确说明 AI 不会调用账号的个人数据,而 Meta 的隐私政策历来对用户数据的使用范围限制较少。此外,Meta 明确表示 Muse Spark 未来将整合 Instagram、Facebook 和 Threads 上的内容与推荐信号,用于购物模式等个性化功能——这意味着用户的社交行为数据将与 AI 推理过程产生交叉。
历史包袱:Llama 4 基准造假问题
这里需要提一个背景。Llama 4 在 2025 年 4 月发布时,曾因使用专为特定任务微调的内部特殊版本来刷基准数据,而非用向公众开放的版本,被独立研究者揭露并迫使 Meta 承认。这一事件严重损害了 Meta 在 AI 评测社区的公信力。
Muse Spark 的基准数据能否经得起独立复现验证,目前尚待社区确认。
Muse 系列的定位:这只是起点
Meta 在官方声明中非常明确地将 Muse Spark 描述为"Muse 系列的第一步"——刻意做小、做快,用于验证整个训练栈的扩展性。更大规模的后续模型已在研发,Zuckerberg 在 Threads 上也表示未来将发布"包括新开源模型在内的越来越先进的模型"。
从 Meta 的叙事逻辑看,Muse Spark 的核心价值不在于当前的绝对性能,而在于证明其重建后的训练基础设施可以有效扩展。这是为后续更大模型铺路的信号。
总结
Muse Spark 是 Meta 在 Llama 4 失利后的系统性重建成果,由 Alexandr Wang 领导的 MSL 团队历时九个月完成。模型在医疗基准上取得当前最佳成绩,多模态能力较扎实,但在整体推理水平和代码能力上仍落后于 GPT-5.4、Claude Opus 4.6 和 Gemini 3.1 Pro。闭源部署、私有 API 的策略标志着 Meta 在这一代产品上的商业模式转变。基准数据能否经得起独立验证,是后续最值得关注的核实点。
欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送
