DeepSeek-V3vsGPT-4o(2024-11-20)
DeepSeek-V3 与 GPT-4o(2024-11-20) 在 6 个共同 benchmark 中整体接近:DeepSeek-V3 领先 3 项,GPT-4o(2024-11-20) 领先 3 项,持平 0 项,平均分差 +1.07。
DeepSeek-V3
DeepSeek-AI · 2024-12-26 · 聊天大模型
GPT-4o(2024-11-20)
OpenAI · 2024-11-20 · 聊天大模型
DeepSeek-V33 项(50%)(50%)3 项GPT-4o(2024-11-20)
评测分数
按能力类目分组,每组内按分差大小排列;共 6 项。
General Knowledge
胶着 2/2| 评测项 | DeepSeek-V3 | GPT-4o(2024-11-20) | 分差 |
|---|---|---|---|
| MMLU | 88.5017 / 65 | 85.7037 / 65 | +2.80 |
| MMLU Pro | 75.9080 / 126 | 77.9072 / 126 | -2 |
Math and Reasoning
DeepSeek-V3 领先 2/2| 评测项 | DeepSeek-V3 | GPT-4o(2024-11-20) | 分差 |
|---|---|---|---|
| MATH | 87.807 / 42 | 68.5024 / 42 | +19.30 |
| FrontierMath | 1.7049 / 60 | 0.3057 / 60 | +1.40 |
Coding and Software Engineer
GPT-4o(2024-11-20) 领先 1/1| 评测项 | DeepSeek-V3 | GPT-4o(2024-11-20) | 分差 |
|---|---|---|---|
| HumanEval | 899 / 39 | 90.207 / 39 | -1.20 |
Common Sense
GPT-4o(2024-11-20) 领先 1/1| 评测项 | DeepSeek-V3 | GPT-4o(2024-11-20) | 分差 |
|---|---|---|---|
| SimpleQA | 24.9029 / 45 | 38.8019 / 45 | -13.90 |
规格对比
| 字段 | DeepSeek-V3 | GPT-4o(2024-11-20) |
|---|---|---|
| 发布机构 | DeepSeek-AI | OpenAI |
| 发布时间 | 2024-12-26 | 2024-11-20 |
| 模型类型 | 聊天大模型 | 聊天大模型 |
| 架构 | 稠密模型 | 稠密模型 |
| 参数规模 | 6810亿 | 暂无数据 |
| 上下文长度 | 128K | 128K |
| 最大输出 | 暂无数据 | 暂无数据 |
小结
- DeepSeek-V3在以下类目领先:Math and Reasoning (2/2)
- GPT-4o(2024-11-20)在以下类目领先:Coding and Software Engineer (1/1)、Common Sense (1/1)
- 胶着类目:General Knowledge
6 个共同 benchmark 上,DeepSeek-V3 平均高出 1.07 分。
单项差距最大的 benchmark:MATH — DeepSeek-V3 87.80,GPT-4o(2024-11-20) 68.50(分差 +19.30)。
本页正文由结构化模型、价格与 benchmark 数据生成,不使用实时 LLM 撰写。