Gemini 2.0 Pro ExperimentalvsGPT-4o(2024-11-20)

在 4 个共同 benchmark 中,Gemini 2.0 Pro Experimental 整体领先:Gemini 2.0 Pro Experimental 领先 4 项,GPT-4o(2024-11-20) 领先 0 项,持平 0 项,平均分差 +7.70。

DeepMind
Gemini 2.0 Pro Experimental

DeepMind · 2025-02-05 · 聊天大模型

OpenAI
GPT-4o(2024-11-20)

OpenAI · 2024-11-20 · 聊天大模型

Gemini 2.0 Pro Experimental4 (100%)(0%)0 GPT-4o(2024-11-20)

评测分数

按能力类目分组,每组内按分差大小排列;共 4 项。

General Knowledge

Gemini 2.0 Pro Experimental 领先 2/2
评测项Gemini 2.0 Pro ExperimentalGPT-4o(2024-11-20)分差
MMLU Pro79.1062 / 12677.9072 / 126+1.20
MMLU86.5028 / 6585.7037 / 65+0.80

Common Sense

Gemini 2.0 Pro Experimental 领先 1/1
评测项Gemini 2.0 Pro ExperimentalGPT-4o(2024-11-20)分差
SimpleQA44.3015 / 4538.8019 / 45+5.50

Math and Reasoning

Gemini 2.0 Pro Experimental 领先 1/1
评测项Gemini 2.0 Pro ExperimentalGPT-4o(2024-11-20)分差
MATH91.804 / 4268.5024 / 42+23.30

规格对比

字段Gemini 2.0 Pro ExperimentalGPT-4o(2024-11-20)
发布机构DeepMindOpenAI
发布时间2025-02-052024-11-20
模型类型聊天大模型聊天大模型
架构稠密模型稠密模型
参数规模暂无数据暂无数据
上下文长度2000K128K
最大输出8K暂无数据

小结

  • Gemini 2.0 Pro Experimental在以下类目领先:General Knowledge (2/2)、Common Sense (1/1)、Math and Reasoning (1/1)

4 个共同 benchmark 上,Gemini 2.0 Pro Experimental 平均高出 7.70 分。

单项差距最大的 benchmark:MATH — Gemini 2.0 Pro Experimental 91.80,GPT-4o(2024-11-20) 68.50(分差 +23.30)。

本页正文由结构化模型、价格与 benchmark 数据生成,不使用实时 LLM 撰写。