GPT-4o(2024-11-20)vsGPT-4o

GPT-4o(2024-11-20) 与 GPT-4o 在 7 个共同 benchmark 中整体接近:GPT-4o(2024-11-20) 领先 2 项,GPT-4o 领先 2 项,持平 3 项,平均分差 -1.37。

OpenAI
GPT-4o(2024-11-20)

OpenAI · 2024-11-20 · 聊天大模型

OpenAI
GPT-4o

OpenAI · 2024-05-13 · 多模态大模型

GPT-4o(2024-11-20)2 (29%)持平3(29%)2 GPT-4o

评测分数

按能力类目分组,每组内按分差大小排列;共 7 项。

Coding and Software Engineer

GPT-4o(2024-11-20) 领先 1/2
评测项GPT-4o(2024-11-20)GPT-4o分差
HumanEval90.207 / 39908 / 39+0.20
SWE-bench Verified31103 / 108Normal (No Tools)31103 / 108持平

General Knowledge

GPT-4o 领先 1/2
评测项GPT-4o(2024-11-20)GPT-4o分差
MMLU85.7037 / 6588.7015 / 65-3
MMLU Pro77.9072 / 12677.9072 / 126持平

Math and Reasoning

GPT-4o 领先 1/2
评测项GPT-4o(2024-11-20)GPT-4o分差
MATH68.5024 / 4275.9016 / 42-7.40
FrontierMath0.3057 / 600.3057 / 60持平

Common Sense

GPT-4o(2024-11-20) 领先 1/1
评测项GPT-4o(2024-11-20)GPT-4o分差
SimpleQA38.8019 / 4538.2020 / 45+0.60

规格对比

字段GPT-4o(2024-11-20)GPT-4o
发布机构OpenAIOpenAI
发布时间2024-11-202024-05-13
模型类型聊天大模型多模态大模型
架构稠密模型稠密模型
参数规模暂无数据暂无数据
上下文长度128K128K
最大输出暂无数据16K

小结

  • GPT-4o(2024-11-20)在以下类目领先:Coding and Software Engineer (1/2)、Common Sense (1/1)
  • GPT-4o在以下类目领先:General Knowledge (1/2)、Math and Reasoning (1/2)

7 个共同 benchmark 上,GPT-4o 平均高出 1.37 分。

单项差距最大的 benchmark:MATH — GPT-4o(2024-11-20) 68.50,GPT-4o 75.90(分差 -7.40)。

本页正文由结构化模型、价格与 benchmark 数据生成,不使用实时 LLM 撰写。