DeepSeek V3.2 (正式版)
DeepSeek V3.2 是 DeepSeek 于2026年1月发布的通用旗舰模型,671B 参数,采用 DSA 稀疏注意力机制,结合大规模强化学习与 agent 任务合成训练,性能对标 GPT-5,支持工具调用与思考模式,MIT 协议开源。
Data sourced primarily from official releases (GitHub, Hugging Face, papers), then benchmark leaderboards, then third-party evaluators. Learn about our data methodology
DeepSeek V3.2 currently shows benchmark results led by LiveCodeBench (13 / 110, score 83.30), AIME2025 (30 / 107, score 93.10), GPQA Diamond (53 / 166, score 82.40). This page also consolidates core specs, context limits, and API pricing so you can evaluate the model from benchmark results and deployment constraints together.
DeepSeek V3.2 系列共包含三个版本:V3.2-Exp、V3.2 正式版和 V3.2-Speciale。V3.2-Exp 是2025年9月发布的实验版本,用于验证新架构;V3.2 正式版于2026年1月发布,是完成完整后训练流程的通用旗舰版本;V3.2-Speciale 是同期发布的高算力推理变体,专为极限推理场景设计。
DeepSeek V3.2 正式版于2026年1月10日发布,总参数 671B,每个 token 激活 37B 参数,上下文窗口 128K,知识截止日期为2025年5月,MIT 协议开源。架构上沿用了 V3.2-Exp 已验证的 DSA 稀疏注意力机制,但后训练部分做了大幅扩展,是 V3.2 系列中面向通用场景的完整产品版本。
后训练阶段,DeepSeek 在 V3.2 上做了两项较大的投入。一是大幅扩展强化学习的计算预算,后训练阶段消耗的算力超过预训练总量的 10%,通过规模化 RL 来提升模型的推理与规划能力,而不只是依赖预训练数据的堆砌。二是构建了大规模 agent 任务合成流水线,覆盖超过 1,800 个不同环境和 85,000 个 agent 任务,涵盖搜索、编程、工具调用等场景,为 RL 训练提供数据支撑。这批合成任务的难度足够高——即使是 frontier 闭源模型在这些任务上的准确率也不超过 62%,确保了 RL 训练的有效性。
V3.2 也是 DeepSeek 首个将思考链整合进工具调用流程的模型,同时支持思考模式和非思考模式下的工具调用。这使得模型在执行多步 agent 任务时,可以在调用外部工具之前先生成推理过程,而不是直接执行。
性能方面,V3.2 在多个推理 benchmark 上达到了与 GPT-5 和 Kimi K2-thinking 相近的水平,在 agent 场景下的表现也显著缩小了与闭源前沿模型的差距。
欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送
