GPT-4o(2024-11-20) 评测详情
GPT-4o(2024-11-20) 当前已收录的代表性评测结果包括 HumanEval(7 / 39,得分 90.20)、SimpleQA(19 / 45,得分 38.80)、MMLU Pro(62 / 116,得分 77.90)。本页还提供与 3 个竞品模型及 2 个前代或同系列模型的对比,在有数据时会展示性能和价格视图。并附有 1 个数据来源链接供参考。
评测结果
GPT-4o(2024-11-20)
评测结果
竞品对比
GPT-4o(2024-11-20) 与同类主流模型的评测得分对比
评测类别:
GPT-4o(2024-11-20):
normal
Claude3-Opus:
normal
Gemini 2.0 Pro Experimental:
normal
DeepSeek-V3:
normal
评测得分对比
6 项可对比评测得分汇总
| 评测项 | GPT-4o(2024-11-20)(本模型) | Claude3-Opus | Gemini 2.0 Pro Experimental | DeepSeek-V3 |
|---|---|---|---|---|
MMLU 综合评估 | 85.70 normal | 86.80 normal | 86.50 normal | 88.50 normal |
MMLU Pro 综合评估 | 77.90 normal | 68.45 normal | 79.10 normal | 75.90 normal |
HumanEval 编程与软件工程 | 90.20 normal | 84.90 normal | -- | 89.00 normal |
FrontierMath 数学推理 | 0.30 normal | -- | -- | 1.70 normal |
MATH 数学推理 | 68.50 normal | 60.10 normal | 91.80 normal | 87.80 normal |
SimpleQA 常识问答 | 38.80 normal | -- | 44.30 normal | 24.90 normal |
GPT-4o(2024-11-20) 与同类模型的标准 API 价格对比
按模型并排展示标准文本输入价与输出价;若存在超长上下文加价,仅保留阈值内标准价,并在下方说明适用范围。
数据来源:DataLearnerAI,展示默认供应商的标准文本价格。
这些模型暂未提供可比较的标准文本价格。
历代版本对比
GPT-4o(2024-11-20) 系列各版本的评测成绩纵向对比
评测类别:
GPT-4o(2024-11-20):
normal
常规模式
GPT-4o:
normal
GPT-4:
常规模式
评测得分对比
7 项可对比评测得分汇总
| 评测项 | GPT-4o(2024-11-20)(本模型) | GPT-4o | GPT-4 |
|---|---|---|---|
MMLU 综合评估 | 85.70 normal | 88.70 normal | 86.40 常规模式(无工具) |
MMLU Pro 综合评估 | 77.90 normal | 77.90 normal | -- |
HumanEval 编程与软件工程 | 90.20 normal | 90.00 normal | 67.00 常规模式(无工具) |
SWE-bench Verified 编程与软件工程 | 31.00 常规模式(无工具) | 31.00 normal | -- |
FrontierMath 数学推理 | 0.30 normal | 0.30 normal | -- |
MATH 数学推理 | 68.50 normal | 75.90 normal | -- |
SimpleQA 常识问答 | 38.80 normal | 38.20 normal | -- |
GPT-4o(2024-11-20) 所在系列的标准 API 价格对比
按模型并排展示标准文本输入价与输出价;若存在超长上下文加价,仅保留阈值内标准价,并在下方说明适用范围。
数据来源:DataLearnerAI,展示默认供应商的标准文本价格。
这些模型的价格币种或计费单位不一致,暂不直接绘制统一柱状图,以下展示原始价格。
GPT-4o
标准输入: 2.5 美元/100万 tokens
标准输出: 10 美元/100万 tokens
| 模型 | 供应商 | 标准输入 | 标准输出 | 标准价适用于 |
|---|---|---|---|---|
GPT-4o | — | 2.5 美元/100万 tokens | 10 美元/100万 tokens | — |
系列版本评测总览
查看 GPT-4o(2024-11-20) 系列各版本在主要评测上的整体得分,点击任意评测行可查看各推理模式的细分结果。
提示:点击任意分数单元格可切换下方关系图。
| 评测项 | GPT-42023/3/14 | GPT-4o2024/5/13 | GPT-4o(2024-11-20)2024/11/20 |
|---|---|---|---|
单评测模式关系图
当前查看:MMLU · 综合评估
选择评测