DeepSeek-V3vsGPT-4o(2024-11-20)
DeepSeek-V3 与 GPT-4o(2024-11-20) 在 6 个共同 benchmark 中整体接近:DeepSeek-V3 领先 3 项,GPT-4o(2024-11-20) 领先 3 项,持平 0 项,平均分差 +1.07。
DeepSeek-V3
DeepSeek-AI · 2024-12-26 · 聊天大模型
GPT-4o(2024-11-20)
OpenAI · 2024-11-20 · 聊天大模型
DeepSeek-V33 项(50%)(50%)3 项GPT-4o(2024-11-20)
评测分数
按能力类目分组,每组内按分差大小排列;共 6 项。
数学推理
DeepSeek-V3 领先 2/2| 评测项 | DeepSeek-V3 | GPT-4o(2024-11-20) | 分差 |
|---|---|---|---|
| MATH | 87.807 / 42 | 68.5024 / 42 | +19.30 |
| FrontierMath | 1.7049 / 60 | 0.3057 / 60 | +1.40 |
综合评估
胶着 2/2| 评测项 | DeepSeek-V3 | GPT-4o(2024-11-20) | 分差 |
|---|---|---|---|
| MMLU | 88.5017 / 65 |
规格对比
| 字段 | DeepSeek-V3 | GPT-4o(2024-11-20) |
|---|---|---|
| 发布机构 | DeepSeek-AI | OpenAI |
| 发布时间 | 2024-12-26 | 2024-11-20 |
| 模型类型 | 聊天大模型 | 聊天大模型 |
| 架构 | 稠密模型 | 稠密模型 |
| 参数规模 | 6810.0 | 暂无数据 |
| 上下文长度 | 128K | 128K |
| 最大输出 | 暂无数据 | 暂无数据 |
小结
- DeepSeek-V3在以下类目领先:数学推理 (2/2)
- GPT-4o(2024-11-20)在以下类目领先:常识问答 (1/1)、编程与软件工程 (1/1)
- 胶着类目:综合评估
6 个共同 benchmark 上,DeepSeek-V3 平均高出 1.07 分。
单项差距最大的 benchmark:MATH — DeepSeek-V3 87.80,GPT-4o(2024-11-20) 68.50(分差 +19.30)。
本页正文由结构化模型、价格与 benchmark 数据生成,不使用实时 LLM 撰写。