Gemini 3.5 FlashvsGPT-5.5

在 9 个共同 benchmark 中，GPT-5.5 整体领先：Gemini 3.5 Flash 领先 2 项，GPT-5.5 领先 7 项，持平 0 项，平均分差 -6.18。

Google Deep Mind · 2026-06-20 · 多模态大模型

OpenAI · 2026-04-23 · 推理大模型

Gemini 3.5 Flash2 项(22%)(78%)7 项GPT-5.5

评测分数

按能力类目分组，每组内按分差大小排列；共 9 项。

GPT-5.5 领先 2/3

评测项	Gemini 3.5 Flash	GPT-5.5	分差
MCP-Atlas	83.601 / 23Thinking High (With Tools)	75.309 / 23极高强度思考（工具）	+8.30
TerminalBench 2.1	76.208 / 16Thinking High (With Tools)	83.404 / 16Thinking High (With Tools)	-7.20
OSWorld-Verified	78.406 / 19Thinking High (With Tools)	78.705 / 19Thinking High (With Tools)	-0.30

GPT-5.5 领先 3/3

评测项	Gemini 3.5 Flash	GPT-5.5	分差
ARC-AGI-2	72.1011 / 59Thinking High (With Tools)	851 / 59Thinking High (No Tools)	-12.90
HLE	40.2055 / 161Thinking High (With Tools)	52.2015 / 161Thinking High (With Tools)	-12
LiveBench	75.0217 / 115Thinking High (No Tools)	80.711 / 115Deep Thinking (No Tools)	-5.69

GPT-5.5 领先 2/2

评测项	Gemini 3.5 Flash	GPT-5.5	分差
DeepSWE	376 / 9Thinking Medium (With Tools)	672 / 9极高强度思考（工具）	-30
SWE-Bench Pro - Public	55.1021 / 44Thinking High (With Tools)	58.608 / 44Thinking High (With Tools)	-3.50

Gemini 3.5 Flash 领先 1/1

评测项	Gemini 3.5 Flash	GPT-5.5	分差
Simple Bench	76.704 / 63Normal (No Tools)	697 / 63Normal (No Tools)	+7.70

价格优先使用 DataLearner 配置的 API 记录；缺失项不做推测。

Gemini 3.5 Flash在以下类目领先:常识推理 (1/1)
GPT-5.5在以下类目领先:AI Agent - Tool Usage (2/3)、General Knowledge (3/3)、Coding and Software Engineer (2/2)

9 个共同 benchmark 上，GPT-5.5 平均高出 6.18 分。

单项差距最大的 benchmark：DeepSWE — Gemini 3.5 Flash 37，GPT-5.5 67（分差 -30）。

本页正文由结构化模型、价格与 benchmark 数据生成，不使用实时 LLM 撰写。