Gemini 2.0 Pro ExperimentalvsGPT-4o(2024-11-20)

在 4 个共同 benchmark 中，Gemini 2.0 Pro Experimental 整体领先：Gemini 2.0 Pro Experimental 领先 4 项，GPT-4o(2024-11-20) 领先 0 项，持平 0 项，平均分差 +7.70。

DeepMind · 2025-02-05 · 聊天大模型

OpenAI · 2024-11-20 · 聊天大模型

Gemini 2.0 Pro Experimental4 项(100%)(0%)0 项GPT-4o(2024-11-20)

评测分数

按能力类目分组，每组内按分差大小排列；共 4 项。

Gemini 2.0 Pro Experimental 领先 2/2

评测项	Gemini 2.0 Pro Experimental	GPT-4o(2024-11-20)	分差
MMLU Pro	79.1060 / 124	77.9070 / 124	+1.20
MMLU	86.5028 / 65	85.7037 / 65	+0.80

Gemini 2.0 Pro Experimental 领先 1/1

评测项	Gemini 2.0 Pro Experimental	GPT-4o(2024-11-20)	分差
SimpleQA

4 个共同 benchmark 上，Gemini 2.0 Pro Experimental 平均高出 7.70 分。

单项差距最大的 benchmark：MATH — Gemini 2.0 Pro Experimental 91.80，GPT-4o(2024-11-20) 68.50（分差 +23.30）。

本页正文由结构化模型、价格与 benchmark 数据生成，不使用实时 LLM 撰写。