DeepSeek-V3vsGPT-4o(2024-11-20)

DeepSeek-V3 与 GPT-4o(2024-11-20) 在 6 个共同 benchmark 中整体接近:DeepSeek-V3 领先 3 项,GPT-4o(2024-11-20) 领先 3 项,持平 0 项,平均分差 +1.07。

DeepSeek-AI
DeepSeek-V3

DeepSeek-AI · 2024-12-26 · 聊天大模型

OpenAI
GPT-4o(2024-11-20)

OpenAI · 2024-11-20 · 聊天大模型

DeepSeek-V33 (50%)(50%)3 GPT-4o(2024-11-20)

评测分数

按能力类目分组,每组内按分差大小排列;共 6 项。

General Knowledge

胶着 2/2
评测项DeepSeek-V3GPT-4o(2024-11-20)分差
MMLU88.5017 / 6585.7037 / 65+2.80
MMLU Pro75.9080 / 12677.9072 / 126-2

Math and Reasoning

DeepSeek-V3 领先 2/2
评测项DeepSeek-V3GPT-4o(2024-11-20)分差
MATH87.807 / 4268.5024 / 42+19.30
FrontierMath1.7049 / 600.3057 / 60+1.40

Coding and Software Engineer

GPT-4o(2024-11-20) 领先 1/1
评测项DeepSeek-V3GPT-4o(2024-11-20)分差
HumanEval899 / 3990.207 / 39-1.20

Common Sense

GPT-4o(2024-11-20) 领先 1/1
评测项DeepSeek-V3GPT-4o(2024-11-20)分差
SimpleQA24.9029 / 4538.8019 / 45-13.90

规格对比

字段DeepSeek-V3GPT-4o(2024-11-20)
发布机构DeepSeek-AIOpenAI
发布时间2024-12-262024-11-20
模型类型聊天大模型聊天大模型
架构稠密模型稠密模型
参数规模6810亿暂无数据
上下文长度128K128K
最大输出暂无数据暂无数据

小结

  • DeepSeek-V3在以下类目领先:Math and Reasoning (2/2)
  • GPT-4o(2024-11-20)在以下类目领先:Coding and Software Engineer (1/1)、Common Sense (1/1)
  • 胶着类目:General Knowledge

6 个共同 benchmark 上,DeepSeek-V3 平均高出 1.07 分。

单项差距最大的 benchmark:MATH — DeepSeek-V3 87.80,GPT-4o(2024-11-20) 68.50(分差 +19.30)。

本页正文由结构化模型、价格与 benchmark 数据生成,不使用实时 LLM 撰写。