Muse Spark by Meta Superintelligence Labs
Meta Muse Spark 是 Meta Superintelligence Labs 于 2026 年 4 月发布的首款模型,也是 Llama 4 失利后 Meta 全面重建 AI 研发体系的第一个对外成果。模型由首席 AI 官 Alexandr Wang 领导团队历时九个月开发完成,原生支持多模态输入,内置多智能体并行推理机制。基准测试中,Muse Spark 在医疗问答(HealthBench Hard 42.8%)和图表理解(CharXiv Reasoning 86.4)上表现突出,整体推理和智能体编码能力与 GPT-5.4、Gemini 3.1 Pro 仍有差距。Meta 将其定位为 Muse 系列的起点,更大规模的后续模型已在开发中。
Data sourced primarily from official releases (GitHub, Hugging Face, papers), then benchmark leaderboards, then third-party evaluators. Learn about our data methodology
Muse Spark currently shows benchmark results led by HLE (3 / 128, score 58), GPQA Diamond (15 / 166, score 89.50), GDPval-AA (2 / 16, score 1444). This page also consolidates core specs, context limits, and API pricing so you can evaluate the model from benchmark results and deployment constraints together.
2026年4月8日,Meta 正式发布 Muse Spark,这是其新成立的 Meta Superintelligence Labs(MSL)推出的第一个模型,也是 Meta 在 Llama 4 遭受广泛批评后的核心反击动作。
背景:Muse Spark 是什么来历
Muse Spark 的内部代号是 Avocado,历时九个月开发完成。它不属于 Llama 系列,而是 Meta 全新启动的 Muse 系列第一款产品。
这背后有一个明确的组织背景:2025年6月,Meta 以143亿美元收购了数据标注公司 Scale AI 49% 的非投票股权,并将 Scale AI 创始人兼 CEO Alexandr Wang 引入 Meta,出任首席 AI 官(CAO)——这也是 Meta 历史上设立的第一个 CAO 职位。Muse Spark 是 Wang 领导 MSL 团队交出的第一份成绩单。
Meta 官方将 Muse Spark 定位为"通往个人超级智能的第一步",并明确说明这是一个"小而快"的起始模型,更大规模的后续模型已在开发中。换句话说,Muse Spark 在 Meta 的技术路线图中是探路者,不是旗舰。
模型能力:多模态原生,多智能体并行推理
从技术架构看,Muse Spark 是一个原生多模态推理模型,支持文本、图像和语音输入,当前输出仅限文本。核心能力包括:工具调用(tool-use)、视觉思维链(visual chain of thought)和多智能体编排(multi-agent orchestration)。
推理模式上,Muse Spark 提供两种主要模式:
Meta 的技术解释是:为了在不大幅增加延迟的情况下扩展测试时推理算力,可以通过增加并行协作智能体的数量来实现——这和 Gemini Deep Think 或 GPT Pro 的思路一脉相承。
Contemplating 模式的基准结果:
这两个数字是 Contemplating 模式下的性能,对应的是 Meta 所说的"极端推理模式"对比赛道。
基准表现:健康领域拿下第一,推理整体略落后头部
Meta 发布了主要基准对比数据,以下是关键数字:
基准Muse SparkGPT-5.4Claude Opus 4.6Gemini 3.1 Pro
GPQA Diamond(博士级推理)89.5%92.8%92.7%94.3%
HealthBench Hard(医疗)42.8%略低明显更低明显更低
GPQA Diamond 上,Muse Spark 的 89.5% 落后于三家主要竞争对手,差距在 3-5 个百分点。HealthBench Hard 则是 Muse Spark 的强项,42.8% 超过所有对手,这与 Meta 在医疗数据上的针对性投入直接相关——官方披露了与超过 1,000 名医生合作整理训练数据的细节。
Meta 在官方技术博客中主动承认了短板:长链路智能体任务和代码工作流是当前的明显性能缺口,这两个方向仍在持续投入中。
视觉能力是差异化方向之一
Meta 重点强调了 Muse Spark 的多模态视觉能力,具体场景包括:
这些能力目前通过图像输入触发,输出仍为文本或交互式内容。
部署范围:闭源为主,开源版本后续跟进
与 Llama 系列完全开放权重不同,Muse Spark 目前是闭源部署:
Axios 是最早确认开源计划的媒体之一。这意味着 Meta 在这一代模型上走的是"先闭源部署、后开源"的路线,与其 Llama 系列从一开始就完全开放权重的策略明显不同。
目前所有模式均免费,但 Meta 可能会在后续引入使用频率限制。
隐私问题值得关注
使用 Muse Spark 需要用 Facebook 或 Instagram 账号登录。Meta 官方没有明确说明 AI 不会调用账号的个人数据,而 Meta 的隐私政策历来对用户数据的使用范围限制较少。此外,Meta 明确表示 Muse Spark 未来将整合 Instagram、Facebook 和 Threads 上的内容与推荐信号,用于购物模式等个性化功能——这意味着用户的社交行为数据将与 AI 推理过程产生交叉。
历史包袱:Llama 4 基准造假问题
这里需要提一个背景。Llama 4 在 2025 年 4 月发布时,曾因使用专为特定任务微调的内部特殊版本来刷基准数据,而非用向公众开放的版本,被独立研究者揭露并迫使 Meta 承认。这一事件严重损害了 Meta 在 AI 评测社区的公信力。
Muse Spark 的基准数据能否经得起独立复现验证,目前尚待社区确认。
Muse 系列的定位:这只是起点
Meta 在官方声明中非常明确地将 Muse Spark 描述为"Muse 系列的第一步"——刻意做小、做快,用于验证整个训练栈的扩展性。更大规模的后续模型已在研发,Zuckerberg 在 Threads 上也表示未来将发布"包括新开源模型在内的越来越先进的模型"。
从 Meta 的叙事逻辑看,Muse Spark 的核心价值不在于当前的绝对性能,而在于证明其重建后的训练基础设施可以有效扩展。这是为后续更大模型铺路的信号。
总结
Muse Spark 是 Meta 在 Llama 4 失利后的系统性重建成果,由 Alexandr Wang 领导的 MSL 团队历时九个月完成。模型在医疗基准上取得当前最佳成绩,多模态能力较扎实,但在整体推理水平和代码能力上仍落后于 GPT-5.4、Claude Opus 4.6 和 Gemini 3.1 Pro。闭源部署、私有 API 的策略标志着 Meta 在这一代产品上的商业模式转变。基准数据能否经得起独立验证,是后续最值得关注的核实点。
欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送
