GPT-4o(2024-11-20)vsGPT-4o

在 8 个共同 benchmark 中，GPT-4o 整体领先：GPT-4o(2024-11-20) 领先 2 项，GPT-4o 领先 3 项，持平 3 项，平均分差 -1.81。

OpenAI · 2024-11-20 · 聊天大模型

OpenAI · 2024-05-13 · 多模态大模型

GPT-4o(2024-11-20)2 项(25%)持平3(38%)3 项GPT-4o

评测分数

按能力类目分组，每组内按分差大小排列；共 8 项。

GPT-4o(2024-11-20) 领先 1/2

评测项	GPT-4o(2024-11-20)	GPT-4o	分差
HumanEval	90.207 / 39	908 / 39	+0.20
SWE-bench Verified	31107 / 112Normal (No Tools)	31107 / 112	持平

GPT-4o 领先 1/2

评测项	GPT-4o(2024-11-20)	GPT-4o	分差
MMLU	85.7037 / 66	88.7015 / 66	-3
MMLU Pro	77.9075 / 132	77.9075 / 132	持平

GPT-4o 领先 1/2

评测项	GPT-4o(2024-11-20)	GPT-4o	分差
MATH	68.5024 / 42	75.9016 / 42	-7.40
FrontierMath	0.3057 / 60	0.3057 / 60	持平

GPT-4o 领先 1/1

评测项	GPT-4o(2024-11-20)	GPT-4o	分差
Aider-Polyglot	18.2050 / 59Normal (No Tools)	23.1047 / 59Normal (No Tools)	-4.90

GPT-4o(2024-11-20) 领先 1/1

评测项	GPT-4o(2024-11-20)	GPT-4o	分差
SimpleQA	38.8021 / 47	38.2022 / 47	+0.60

价格优先使用 DataLearner 配置的 API 记录；缺失项不做推测。

价格项	GPT-4o(2024-11-20)	GPT-4o
文本输入	暂无公开价格	$2.5 / 1M tokens
文本输出	暂无公开价格	$10 / 1M tokens

部分模型公开价格不完整，缺失字段按"暂无公开价格"展示。

GPT-4o(2024-11-20)在以下类目领先:Coding and Software Engineer (1/2)、Common Sense (1/1)
GPT-4o在以下类目领先:General Knowledge (1/2)、Math and Reasoning (1/2)、Agent Level Benchmark (1/1)

8 个共同 benchmark 上，GPT-4o 平均高出 1.81 分。

单项差距最大的 benchmark：MATH — GPT-4o(2024-11-20) 68.50，GPT-4o 75.90（分差 -7.40）。

本页正文由结构化模型、价格与 benchmark 数据生成，不使用实时 LLM 撰写。