DeepSeek V3.2
DeepSeek V3.2 (正式版)
模型参数
6710.0亿
上下文长度
128K
中文支持
支持
推理能力
模型基本信息
推理过程
支持
上下文长度
128K tokens
最大输出长度
8192 tokens
模型类型
推理大模型
发布时间
2025-12-01
模型文件大小
1.34TB
MoE架构
是
总参数 / 激活参数
6710.0 亿 / 370 亿
知识截止
暂无数据
推理模式
常规模式(Non-Thinking Mode)思考模式(Thinking Mode)
开源和体验地址
预训练权重开源
DEEPSEEK LICENSE AGREEMENT- 免费商用授权
Hugging Face
官方介绍与博客
API接口信息
接口速度
3/5
默认单位:$/100万 tokens。若计费单位不同,则以供应商公开的原始标注为准。
标准计费Standard
| 模态 | 输入 | 输出 |
|---|---|---|
| 文本 | $0.28 | $0.42 |
缓存计费Cache
| 模态 | 输入 Cache | 输出 Cache |
|---|---|---|
| 文本 | $0.028 | -- |
评测得分
编程与软件工程
共 3 项评测评测名称 / 模式
得分
排名/总数
发布机构
DeepSeek-AI
查看发布机构详情 模型解读
DeepSeek V3.2 简介与定位
DeepSeek V3.2 为 V3.2 系列的正式版,官方将 App、Web 与 API 的默认服务从 V3.2-Exp 升级为 V3.2。其设计目标是在通用问答与 Agent 任务场景中平衡思考推理能力与输出长度,并在同一模型下同时支持思考模式与非思考模式。
架构与训练要点
V3.2 系列承袭此前在 V3.2-Exp 中引入的稀疏注意力方向探索(如 DeepSeek Sparse Attention, DSA)等长上下文效率优化思路,并在正式版中结合更大规模的后训练与强化学习管线(官方称包含面向智能体的合成任务与大规模 RL 训练),以提升泛化能力与工具使用中的鲁棒性。
能力与模态
模型为文本向通用大语言模型,官方强调其在通用问答、工具使用与 Agent 评测集上的表现,且在思考模式与非思考模式下均可进行工具调用(区别于过往版本思考模式下无法使用工具)。
性能与评测
官方材料给出在多项智能体工具调用评测集中的对比结果,指向当前开源模型的领先水平;文档未提供统一的参数规模与完整基准表的全部原始数值,本站保持对官方表格的描述性转述。
访问与开源
V3.2 已在官网 Web、App 与 API 上线;开源仓库提供权重/模型卡,并可通过官方聊天入口进行交互体验。
DataLearner 官方微信
欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送
