Muse Spark

Name: Muse Spark by Meta Superintelligence Labs
Author: Facebook AI研究实验室

推理大模型

Muse Spark by Meta Superintelligence Labs

发布时间: 2026-04-08更新于: 2026-04-09 13:19:26.59875

在线体验GitHubHugging FaceCompare

模型参数

未披露

上下文长度

262K

中文支持

不支持

推理能力

Meta Muse Spark 是 Meta Superintelligence Labs 于 2026 年 4 月发布的首款模型，也是 Llama 4 失利后 Meta 全面重建 AI 研发体系的第一个对外成果。模型由首席 AI 官 Alexandr Wang 领导团队历时九个月开发完成，原生支持多模态输入，内置多智能体并行推理机制。基准测试中，Muse Spark 在医疗问答（HealthBench Hard 42.8%）和图表理解（CharXiv Reasoning 86.4）上表现突出，整体推理和智能体编码能力与 GPT-5.4、Gemini 3.1 Pro 仍有差距。Meta 将其定位为 Muse 系列的起点，更大规模的后续模型已在开发中。

数据优先来自官方发布（GitHub、Hugging Face、论文），其次为评测基准官方结果，最后为第三方评测机构数据。了解数据收集方法

Muse Spark

模型基本信息

推理过程

支持

思考模式

思考水平 · 开启 (On) (默认)思考水平 · 关闭 (Off)

上下文长度

262K tokens

最大输出长度

暂无数据

模型类型

推理大模型

发布时间

2026-04-08

模型文件大小

暂无数据

MoE架构

否

总参数 / 激活参数

0.0 亿 / 不涉及

知识截止

暂无数据

Muse Spark

开源和体验地址

代码开源状态

不开源

预训练权重开源

不开源- 不开源

GitHub 源码

暂无GitHub开源地址

Hugging Face

暂无开源HuggingFace地址

在线体验

https://www.meta.ai

Muse Spark

官方介绍与博客

官方论文

Introducing Muse Spark: Scaling Towards Personal Superintelligence

DataLearnerAI博客

暂无介绍博客

Muse Spark

API接口信息

接口速度

3/5

暂无公开的 API 定价信息。

Muse Spark

评测结果

Muse Spark 当前已收录的代表性评测结果包括 HLE（3 / 128，得分 58）、GPQA Diamond（15 / 166，得分 89.50）、GDPval-AA（2 / 16，得分 1444）。本页还汇总了参数规模、上下文长度与 API 价格，便于结合评测结果与部署约束一起判断模型适配度。

综合评估

共 4 项评测

评测名称 / 模式

得分

排名/总数

GPQA Diamond

开启

89.50

15 / 166

HLE

开启

42.80

26 / 128

HLE

深度

3 / 128

ARC-AGI-2

开启

42.50

16 / 43

查看评测深度分析与其他模型对比

Muse Spark

发布机构

Facebook AI研究实验室

查看发布机构详情

Muse Spark by Meta Superintelligence Labs

模型解读

2026年4月8日，Meta 正式发布 Muse Spark，这是其新成立的 Meta Superintelligence Labs（MSL）推出的第一个模型，也是 Meta 在 Llama 4 遭受广泛批评后的核心反击动作。

背景：Muse Spark 是什么来历

Muse Spark 的内部代号是 Avocado，历时九个月开发完成。它不属于 Llama 系列，而是 Meta 全新启动的 Muse 系列第一款产品。

这背后有一个明确的组织背景：2025年6月，Meta 以143亿美元收购了数据标注公司 Scale AI 49% 的非投票股权，并将 Scale AI 创始人兼 CEO Alexandr Wang 引入 Meta，出任首席 AI 官（CAO）——这也是 Meta 历史上设立的第一个 CAO 职位。Muse Spark 是 Wang 领导 MSL 团队交出的第一份成绩单。

Meta 官方将 Muse Spark 定位为"通往个人超级智能的第一步"，并明确说明这是一个"小而快"的起始模型，更大规模的后续模型已在开发中。换句话说，Muse Spark 在 Meta 的技术路线图中是探路者，不是旗舰。

模型能力：多模态原生，多智能体并行推理

从技术架构看，Muse Spark 是一个原生多模态推理模型，支持文本、图像和语音输入，当前输出仅限文本。核心能力包括：工具调用（tool-use）、视觉思维链（visual chain of thought）和多智能体编排（multi-agent orchestration）。

推理模式上，Muse Spark 提供两种主要模式：

快速模式：处理日常简单查询，低延迟优先
Contemplating 模式：将多个子智能体并行调度，共同攻克复杂问题

Meta 的技术解释是：为了在不大幅增加延迟的情况下扩展测试时推理算力，可以通过增加并行协作智能体的数量来实现——这和 Gemini Deep Think 或 GPT Pro 的思路一脉相承。

Contemplating 模式的基准结果：

Humanity's Last Exam：58%
FrontierScience Research：38%

这两个数字是 Contemplating 模式下的性能，对应的是 Meta 所说的"极端推理模式"对比赛道。

基准表现：健康领域拿下第一，推理整体略落后头部

Meta 发布了主要基准对比数据，以下是关键数字：

基准Muse SparkGPT-5.4Claude Opus 4.6Gemini 3.1 Pro

GPQA Diamond（博士级推理）89.5%92.8%92.7%94.3%

HealthBench Hard（医疗）42.8%略低明显更低明显更低

GPQA Diamond 上，Muse Spark 的 89.5% 落后于三家主要竞争对手，差距在 3-5 个百分点。HealthBench Hard 则是 Muse Spark 的强项，42.8% 超过所有对手，这与 Meta 在医疗数据上的针对性投入直接相关——官方披露了与超过 1,000 名医生合作整理训练数据的细节。

Meta 在官方技术博客中主动承认了短板：长链路智能体任务和代码工作流是当前的明显性能缺口，这两个方向仍在持续投入中。

视觉能力是差异化方向之一

Meta 重点强调了 Muse Spark 的多模态视觉能力，具体场景包括：

视觉 STEM 题目（强项）
实体识别与定位
从图像中解读营养标签、健身动作肌肉激活图等健康信息
基于文字描述直接生成可运行的迷你游戏或可视化界面（visual coding）

这些能力目前通过图像输入触发，输出仍为文本或交互式内容。

部署范围：闭源为主，开源版本后续跟进

与 Llama 系列完全开放权重不同，Muse Spark 目前是闭源部署：

立即上线：Meta AI 官方 App 和 meta.ai 网站
数周内陆续上线：WhatsApp、Instagram、Facebook、Messenger 以及 Ray-Ban Meta AI 智能眼镜
API 访问：仅开放给精选合作伙伴的私有预览（Private Preview）
未来计划：Meta 已明确将发布 Muse Spark 的开源版本（open-source license）

Axios 是最早确认开源计划的媒体之一。这意味着 Meta 在这一代模型上走的是"先闭源部署、后开源"的路线，与其 Llama 系列从一开始就完全开放权重的策略明显不同。

目前所有模式均免费，但 Meta 可能会在后续引入使用频率限制。

隐私问题值得关注

使用 Muse Spark 需要用 Facebook 或 Instagram 账号登录。Meta 官方没有明确说明 AI 不会调用账号的个人数据，而 Meta 的隐私政策历来对用户数据的使用范围限制较少。此外，Meta 明确表示 Muse Spark 未来将整合 Instagram、Facebook 和 Threads 上的内容与推荐信号，用于购物模式等个性化功能——这意味着用户的社交行为数据将与 AI 推理过程产生交叉。

历史包袱：Llama 4 基准造假问题

这里需要提一个背景。Llama 4 在 2025 年 4 月发布时，曾因使用专为特定任务微调的内部特殊版本来刷基准数据，而非用向公众开放的版本，被独立研究者揭露并迫使 Meta 承认。这一事件严重损害了 Meta 在 AI 评测社区的公信力。

Muse Spark 的基准数据能否经得起独立复现验证，目前尚待社区确认。

Muse 系列的定位：这只是起点

Meta 在官方声明中非常明确地将 Muse Spark 描述为"Muse 系列的第一步"——刻意做小、做快，用于验证整个训练栈的扩展性。更大规模的后续模型已在研发，Zuckerberg 在 Threads 上也表示未来将发布"包括新开源模型在内的越来越先进的模型"。

从 Meta 的叙事逻辑看，Muse Spark 的核心价值不在于当前的绝对性能，而在于证明其重建后的训练基础设施可以有效扩展。这是为后续更大模型铺路的信号。

总结

Muse Spark 是 Meta 在 Llama 4 失利后的系统性重建成果，由 Alexandr Wang 领导的 MSL 团队历时九个月完成。模型在医疗基准上取得当前最佳成绩，多模态能力较扎实，但在整体推理水平和代码能力上仍落后于 GPT-5.4、Claude Opus 4.6 和 Gemini 3.1 Pro。闭源部署、私有 API 的策略标志着 Meta 在这一代产品上的商业模式转变。基准数据能否经得起独立验证，是后续最值得关注的核实点。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信，获得最新 AI 技术推送