Muse SparkvsGemini 3.1 Pro Preview

在 9 个共同 benchmark 中，Gemini 3.1 Pro Preview 整体领先：Muse Spark 领先 3 项，Gemini 3.1 Pro Preview 领先 6 项，持平 0 项，平均分差 -5.42。

Facebook AI研究实验室 · 2026-04-08 · 推理大模型

Google Deep Mind · 2026-02-20 · 多模态大模型

Muse Spark3 项(33%)(67%)6 项Gemini 3.1 Pro Preview

评测分数

按能力类目分组，每组内按分差大小排列；共 9 项。

Gemini 3.1 Pro Preview 领先 2/3

评测项	Muse Spark	Gemini 3.1 Pro Preview	分差
ARC-AGI-2	42.5028 / 62Thinking (No Tools)	77.109 / 62Thinking High (No Tools)	-34.60
HLE	586 / 172深度思考（无工具、并行）	51.4022 / 172Thinking High (With Tools)	+6.60
GPQA Diamond	89.5025 / 187Thinking (No Tools)	94.303 / 187Thinking High (No Tools)	-4.80

胶着 2/2

评测项	Muse Spark	Gemini 3.1 Pro Preview	分差
Terminal Bench 2.0	5924 / 47Thinking (With Tools)	68.508 / 47Thinking High (With Tools)	-9.50
MCP-Atlas	82.205 / 27Normal (With Tools)	78.209 / 27Thinking High (With Tools)	+4

胶着 2/2

评测项	Muse Spark	Gemini 3.1 Pro Preview	分差
FrontierMath - Tier 4	14.6023 / 80Normal (No Tools)	16.7020 / 80Normal (No Tools)	-2.10
FrontierMath	399 / 60Thinking (No Tools)	36.9011 / 60Thinking High (No Tools)	+2.10

Gemini 3.1 Pro Preview 领先 1/1

评测项	Muse Spark	Gemini 3.1 Pro Preview	分差
τ²-Bench - Telecom	9220 / 35Thinking (With Tools)	99.301 / 35Thinking High (With Tools)	-7.30

Gemini 3.1 Pro Preview 领先 1/1

评测项	Muse Spark	Gemini 3.1 Pro Preview	分差
SWE-bench Verified	77.4027 / 112Thinking (With Tools)	80.6011 / 112Thinking High (With Tools)	-3.20

价格优先使用 DataLearner 配置的 API 记录；缺失项不做推测。

价格项	Muse Spark	Gemini 3.1 Pro Preview
文本输入	暂无公开价格	$2 / 1M tokens
文本输出	暂无公开价格	$12 / 1M tokens

部分模型公开价格不完整，缺失字段按"暂无公开价格"展示。

Gemini 3.1 Pro Preview在以下类目领先:General Knowledge (2/3)、Agent Level Benchmark (1/1)、Coding and Software Engineer (1/1)
胶着类目:AI Agent - Tool Usage、Math and Reasoning

9 个共同 benchmark 上，Gemini 3.1 Pro Preview 平均高出 5.42 分。

单项差距最大的 benchmark：ARC-AGI-2 — Muse Spark 42.50，Gemini 3.1 Pro Preview 77.10（分差 -34.60）。

本页正文由结构化模型、价格与 benchmark 数据生成，不使用实时 LLM 撰写。