GPT-4o(2024-11-20)vsClaude3-Opus

在 4 个共同 benchmark 中，GPT-4o(2024-11-20) 整体领先：GPT-4o(2024-11-20) 领先 3 项，Claude3-Opus 领先 1 项，持平 0 项，平均分差 +5.51。

OpenAI · 2024-11-20 · 聊天大模型

Anthropic · 2024-03-04 · 多模态大模型

GPT-4o(2024-11-20)3 项(75%)(25%)1 项Claude3-Opus

评测分数

按能力类目分组，每组内按分差大小排列；共 4 项。

胶着 2/2

评测项	GPT-4o(2024-11-20)	Claude3-Opus	分差
MMLU Pro	77.9070 / 124	68.4593 / 124	+9.45
MMLU	85.7037 / 65	86.8027 / 65	-1.10

GPT-4o(2024-11-20) 领先 1/1

评测项	GPT-4o(2024-11-20)	Claude3-Opus	分差
MATH	68.5024 / 42

4 个共同 benchmark 上，GPT-4o(2024-11-20) 平均高出 5.51 分。

单项差距最大的 benchmark：MMLU Pro — GPT-4o(2024-11-20) 77.90，Claude3-Opus 68.45（分差 +9.45）。

本页正文由结构化模型、价格与 benchmark 数据生成，不使用实时 LLM 撰写。