DeepSeek V3.2 评测详情
DeepSeek V3.2 当前已收录的代表性评测结果包括 LiveCodeBench(19 / 118,得分 83.30)、AIME2025(30 / 106,得分 93.10)、GPQA Diamond(61 / 175,得分 82.40)。本页还提供与 3 个前代或同系列模型的迭代对比。并附有 1 个数据来源链接供参考。
评测结果
DeepSeek V3.2
评测结果
综合评估
共 4 项评测评测名称 / 模式
得分
排名/总数
编程与软件工程
共 5 项评测评测名称 / 模式
得分
排名/总数
历代版本对比
DeepSeek V3.2 系列各版本的评测成绩纵向对比
评测类别:
柱状图按当前筛选范围内每个模型在各评测中的最高分展示;具体模式明细请看下方表格。
评测得分对比
8 项可对比评测得分汇总。每个模型展示最佳得分,模式在分数下方标注。· 点击任意行可切换下方趋势图。
| 评测项 | DeepSeek V3.2当前 | DeepSeek-V3.1 | DeepSeek-V3-0324 | DeepSeek-V3 |
|---|---|---|---|---|
ARC-AGI 综合评估 | 57.00开启思考 | -- | 9.00常规模式 | -- |
GPQA Diamond 综合评估 | 82.40开启思考 | 80.10开启思考 | 68.40常规模式 | 59.10常规模式 |
HLE 综合评估 | 25.10开启思考 | 15.90开启思考 | 5.20常规模式 | -- |
LiveCodeBench 编程与软件工程 | 83.30开启思考 | 74.80开启思考 | 49.20常规模式 | 34.60常规模式 |
SWE-bench Verified 编程与软件工程 | 73.10开启思考 | 工具 | 66.00常规模式 | 38.80常规模式 | -- |
AIME2025 数学推理 | 93.10开启思考 | 88.40开启思考 | 47.70常规模式 | -- |
Aider-Polyglot Agent能力评测 | 69.90开启思考 | 工具 | 76.30开启思考 | 55.10常规模式 | -- |
τ²-Bench Agent能力评测 | 80.30开启思考 | 工具 | -- | 38.80常规模式 | 工具 | -- |
单评测历史趋势图
当前查看:ARC-AGI · 综合评估
选择评测
DeepSeek V3.2 所在系列的标准 API 价格对比
按模型并排展示标准文本输入价与输出价;若存在超长上下文加价,仅保留阈值内标准价,并在下方说明适用范围。
数据来源:DataLearnerAI,展示默认供应商的标准文本价格。
这些模型的价格币种或计费单位不一致,暂不直接绘制统一柱状图,以下展示原始价格。
DeepSeek-V3.1
标准输入: 0.56 美元/100 万tokens
标准输出: 1.68 美元/100 万tokens
DeepSeek-V3-0324
标准输入: 0.27 美元/100万 tokens
标准输出: 1.1 美元/100万 tokens
| 模型 | 供应商 | 标准输入 | 标准输出 | 标准价适用于 |
|---|---|---|---|---|
DeepSeek-V3.1 | — | 0.56 美元/100 万tokens | 1.68 美元/100 万tokens | — |
DeepSeek-V3-0324 | — | 0.27 美元/100万 tokens | 1.1 美元/100万 tokens | — |