Claude3-OpusvsGPT-4
在 3 个共同 benchmark 中,Claude3-Opus 整体领先:Claude3-Opus 领先 3 项,GPT-4 领先 0 项,持平 0 项,平均分差 +6.83。
Claude3-Opus
Anthropic · 2024-03-04 · 多模态大模型
GPT-4
OpenAI · 2023-03-14 · 基础大模型
Claude3-Opus3 项(100%)(0%)0 项GPT-4
评测分数
按能力类目分组,每组内按分差大小排列;共 3 项。
综合评估
Claude3-Opus 领先 1/1| 评测项 | Claude3-Opus | GPT-4 | 分差 |
|---|---|---|---|
| MMLU | 86.8027 / 65 | 86.4031 / 65Normal (No Tools) | +0.40 |
编程与软件工程
Claude3-Opus 领先 1/1| 评测项 | Claude3-Opus | GPT-4 | 分差 |
|---|---|---|---|
| HumanEval | 84.9021 / 39 | 6727 / 39Normal (No Tools) | +17.90 |
规格对比
| 字段 | Claude3-Opus | GPT-4 |
|---|---|---|
| 发布机构 | Anthropic | OpenAI |
| 发布时间 | 2024-03-04 | 2023-03-14 |
| 模型类型 | 多模态大模型 | 基础大模型 |
| 架构 | 稠密模型 | 稠密模型 |
| 参数规模 | 0.0 | 1750.0 |
| 上下文长度 | 200K | 128K |
| 最大输出 | 暂无数据 | 暂无数据 |
小结
- Claude3-Opus在以下类目领先:综合评估 (1/1)、编程与软件工程 (1/1)、阅读理解 (1/1)
3 个共同 benchmark 上,Claude3-Opus 平均高出 6.83 分。
单项差距最大的 benchmark:HumanEval — Claude3-Opus 84.90,GPT-4 67(分差 +17.90)。
本页正文由结构化模型、价格与 benchmark 数据生成,不使用实时 LLM 撰写。