DeepSeek V3.2 (正式版)
DeepSeek V3.2 是 DeepSeek 于2026年1月发布的通用旗舰模型,671B 参数,采用 DSA 稀疏注意力机制,结合大规模强化学习与 agent 任务合成训练,性能对标 GPT-5,支持工具调用与思考模式,MIT 协议开源。
数据优先来自官方发布(GitHub、Hugging Face、论文),其次为评测基准官方结果,最后为第三方评测机构数据。 了解数据收集方法
DeepSeek V3.2 当前已收录的代表性评测结果包括 LiveCodeBench(13 / 109,得分 83.30)、AIME2025(30 / 107,得分 93.10)、GPQA Diamond(53 / 166,得分 82.40)。 本页还汇总了参数规模、上下文长度与 API 价格,便于结合评测结果与部署约束一起判断模型适配度。
DeepSeek V3.2 系列共包含三个版本:V3.2-Exp、V3.2 正式版和 V3.2-Speciale。V3.2-Exp 是2025年9月发布的实验版本,用于验证新架构;V3.2 正式版于2026年1月发布,是完成完整后训练流程的通用旗舰版本;V3.2-Speciale 是同期发布的高算力推理变体,专为极限推理场景设计。
DeepSeek V3.2 正式版于2026年1月10日发布,总参数 671B,每个 token 激活 37B 参数,上下文窗口 128K,知识截止日期为2025年5月,MIT 协议开源。架构上沿用了 V3.2-Exp 已验证的 DSA 稀疏注意力机制,但后训练部分做了大幅扩展,是 V3.2 系列中面向通用场景的完整产品版本。
后训练阶段,DeepSeek 在 V3.2 上做了两项较大的投入。一是大幅扩展强化学习的计算预算,后训练阶段消耗的算力超过预训练总量的 10%,通过规模化 RL 来提升模型的推理与规划能力,而不只是依赖预训练数据的堆砌。二是构建了大规模 agent 任务合成流水线,覆盖超过 1,800 个不同环境和 85,000 个 agent 任务,涵盖搜索、编程、工具调用等场景,为 RL 训练提供数据支撑。这批合成任务的难度足够高——即使是 frontier 闭源模型在这些任务上的准确率也不超过 62%,确保了 RL 训练的有效性。
V3.2 也是 DeepSeek 首个将思考链整合进工具调用流程的模型,同时支持思考模式和非思考模式下的工具调用。这使得模型在执行多步 agent 任务时,可以在调用外部工具之前先生成推理过程,而不是直接执行。
性能方面,V3.2 在多个推理 benchmark 上达到了与 GPT-5 和 Kimi K2-thinking 相近的水平,在 agent 场景下的表现也显著缩小了与闭源前沿模型的差距。
欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送
