GPT-4o(2024-11-20) 评测详情

GPT-4o(2024-11-20) 当前已收录的代表性评测结果包括 HumanEval（7 / 39，得分 90.20）、SimpleQA（19 / 45，得分 38.80）、MMLU（37 / 65，得分 85.70）。本页还提供与 3 个竞品模型及 2 个前代或同系列模型的对比，在有数据时会展示性能和价格视图。并附有 1 个数据来源链接供参考。

评测结果

GPT-4o(2024-11-20)

评测结果

综合评估

共 2 项评测

评测名称 / 模式

得分

排名/总数

MMLU

85.70

37 / 65

MMLU Pro

77.90

72 / 126

编程与软件工程

共 2 项评测

评测名称 / 模式

得分

排名/总数

HumanEval

90.20

7 / 39

SWE-bench Verified

常规模式

104 / 109

数学推理

共 2 项评测

评测名称 / 模式

得分

排名/总数

MATH

68.50

24 / 42

FrontierMath

0.30

57 / 60

常识问答

共 1 项评测

评测名称 / 模式

得分

排名/总数

SimpleQA

38.80

19 / 45

Agent能力评测

共 1 项评测

评测名称 / 模式

得分

排名/总数

Aider-Polyglot

常规模式

18.20

50 / 59

与其他模型对比

竞品对比

GPT-4o(2024-11-20) 与同类主流模型的评测得分对比

GPT-4o(2024-11-20)Claude3-Opus Gemini 2.0 Pro Experimental DeepSeek-V3

评测类别:

柱状图按当前筛选范围内每个模型在各评测中的最高分展示；百分制评测使用原始高度，超出 0-100 的评测按该评测内相对比例缩放，标签仍保留原始分数。

7 项可对比评测得分汇总。每个模型展示最佳得分，模式在分数下方标注。

评测项	GPT-4o(2024-11-20)当前	Claude3-Opus	Gemini 2.0 Pro Experimental	DeepSeek-V3
MMLU 综合评估	85.70常规模式	86.80常规模式	86.50常规模式	88.50常规模式
MMLU Pro 综合评估	77.90常规模式	68.45常规模式	79.10常规模式	75.90常规模式
HumanEval 编程与软件工程	90.20常规模式	84.90常规模式	--	89.00常规模式
FrontierMath 数学推理	0.30常规模式	--	--	1.70常规模式
MATH 数学推理	68.50常规模式	60.10常规模式	91.80常规模式	87.80常规模式
SimpleQA 常识问答	38.80常规模式	--	44.30常规模式	24.90常规模式
Aider-Polyglot Agent能力评测	18.20常规模式	--	35.60常规模式	48.40常规模式

GPT-4o(2024-11-20) 与同类模型的标准 API 价格对比

按模型并排展示标准文本输入价与输出价；若存在超长上下文加价，仅保留阈值内标准价，并在下方说明适用范围。

数据来源：DataLearnerAI，展示默认供应商的标准文本价格。

这些模型暂未提供可比较的标准文本价格。

历代版本对比

GPT-4o(2024-11-20) 系列各版本的评测成绩纵向对比

GPT-4o(2024-11-20)GPT-4o GPT-4

评测类别:

7 项可对比评测得分汇总。每个模型展示最佳得分，模式在分数下方标注。· 点击任意行可切换下方趋势图。

评测项	GPT-4o(2024-11-20)当前	GPT-4o	GPT-4
MMLU 综合评估	85.70常规模式	88.70常规模式	86.40常规模式
MMLU Pro 综合评估	77.90常规模式	77.90常规模式	--
HumanEval 编程与软件工程	90.20常规模式	90.00常规模式	67.00常规模式
FrontierMath 数学推理	0.30常规模式	0.30常规模式	--
MATH 数学推理	68.50常规模式	75.90常规模式	--
SimpleQA 常识问答	38.80常规模式	38.20常规模式	--
Aider-Polyglot Agent能力评测	18.20常规模式	23.10常规模式	--

单评测历史趋势图

当前查看：MMLU · 综合评估

选择评测

常规常规 + 工具推理推理 + 工具深度推理深度推理 + 工具

横轴为模型与发布时间，纵轴为分数；同一模式会用实线串起版本变化，同代不同模式继续用虚线辅助对齐。

GPT-4o(2024-11-20) 所在系列的标准 API 价格对比

按模型并排展示标准文本输入价与输出价；若存在超长上下文加价，仅保留阈值内标准价，并在下方说明适用范围。

数据来源：DataLearnerAI，展示默认供应商的标准文本价格。

这些模型暂未提供可比较的标准文本价格。

数据来源

epoch.aiepoch.ai