Claude3-OpusvsGPT-4

在 3 个共同 benchmark 中,Claude3-Opus 整体领先:Claude3-Opus 领先 3 项,GPT-4 领先 0 项,持平 0 项,平均分差 +6.83。

Anthropic
Claude3-Opus

Anthropic · 2024-03-04 · 多模态大模型

OpenAI
GPT-4

OpenAI · 2023-03-14 · 基础大模型

Claude3-Opus3 (100%)(0%)0 GPT-4

评测分数

按能力类目分组,每组内按分差大小排列;共 3 项。

Coding and Software Engineer

Claude3-Opus 领先 1/1
评测项Claude3-OpusGPT-4分差
HumanEval84.9021 / 396727 / 39Normal (No Tools)+17.90

General Knowledge

Claude3-Opus 领先 1/1
评测项Claude3-OpusGPT-4分差
MMLU86.8027 / 6586.4031 / 65Normal (No Tools)+0.40

阅读理解

Claude3-Opus 领先 1/1
评测项Claude3-OpusGPT-4分差
DROP83.106 / 980.907 / 9Normal (No Tools)+2.20

规格对比

字段Claude3-OpusGPT-4
发布机构AnthropicOpenAI
发布时间2024-03-042023-03-14
模型类型多模态大模型基础大模型
架构稠密模型稠密模型
参数规模暂无数据1750亿
上下文长度200K128K
最大输出暂无数据暂无数据

小结

  • Claude3-Opus在以下类目领先:Coding and Software Engineer (1/1)、General Knowledge (1/1)、阅读理解 (1/1)

3 个共同 benchmark 上,Claude3-Opus 平均高出 6.83 分。

单项差距最大的 benchmark:HumanEval — Claude3-Opus 84.90,GPT-4 67(分差 +17.90)。

本页正文由结构化模型、价格与 benchmark 数据生成,不使用实时 LLM 撰写。