Muse SparkvsGPT-5.4

在 8 个共同 benchmark 中，GPT-5.4 整体领先：Muse Spark 领先 3 项，GPT-5.4 领先 5 项，持平 0 项，平均分差 -3.74。

Facebook AI研究实验室 · 2026-04-08 · 推理大模型

OpenAI · 2026-03-05 · 多模态大模型

Muse Spark3 项(38%)(63%)5 项GPT-5.4

评测分数

按能力类目分组，每组内按分差大小排列；共 8 项。

GPT-5.4 领先 2/3

评测项	Muse Spark	GPT-5.4	分差
ARC-AGI-2	42.5028 / 62Thinking (No Tools)	77.109 / 62Normal (No Tools)	-34.60
HLE	586 / 172深度思考（无工具、并行）	52.1021 / 172极高强度思考（工具）	+5.90
GPQA Diamond	89.5025 / 187Thinking (No Tools)	92.8011 / 187极高强度思考（无工具）	-3.30

胶着 2/2

评测项	Muse Spark	GPT-5.4	分差
Terminal Bench 2.0	5924 / 47Thinking (With Tools)	75.104 / 47极高强度思考（工具）	-16.10
MCP-Atlas	82.205 / 27Normal (With Tools)	70.6014 / 27极高强度思考（工具）	+11.60

GPT-5.4 领先 2/2

评测项	Muse Spark	GPT-5.4	分差
FrontierMath - Tier 4	14.6023 / 80Normal (No Tools)	27.1011 / 80极高强度思考（无工具）	-12.50
FrontierMath	399 / 60Thinking (No Tools)	47.605 / 60极高强度思考（无工具）	-8.60

Muse Spark 领先 1/1

评测项	Muse Spark	GPT-5.4	分差
τ²-Bench - Telecom	9220 / 35Thinking (With Tools)	64.3030 / 35Normal (With Tools)	+27.70

价格优先使用 DataLearner 配置的 API 记录；缺失项不做推测。

部分模型公开价格不完整，缺失字段按"暂无公开价格"展示。

8 个共同 benchmark 上，GPT-5.4 平均高出 3.74 分。

单项差距最大的 benchmark：ARC-AGI-2 — Muse Spark 42.50，GPT-5.4 77.10（分差 -34.60）。

本页正文由结构化模型、价格与 benchmark 数据生成，不使用实时 LLM 撰写。