模型评测对比
最新基准汇总
DeepSeek-V3.1与DeepSeek-V3-0324、DeepSeek-R1-0528模型对比
DeepSeek-V3.1 并不是一次彻底的架构革新,而是对 V3 系列在 稳定性、推理性能与代码生成能力 上的平衡升级,同时在推理模式和 Agent 应用层面有了实质性进展。
1. 推理与非推理的混合模式
与前代模型相比,V3.1 在 “thinking 模式” 与 “normal 模式” 上的差异化表现非常明显:
- 在纯推理任务(如数学、复杂逻辑)中,V3.1 的 thinking 模式大幅提升精度,接近甚至超过 R1。
- 在代码类任务中,V3.1 能够灵活切换——thinking 模式强化复杂问题解决,normal 模式则兼顾速度与成本。
- 相比之下,V3-0324 几乎只能依赖 normal 模式,表现受限;而 R1 则虽然推理极强,但缺少足够的 normal 模式支撑。
这意味着 V3.1 实现了推理与高效执行之间的动态平衡,适合在不同任务下灵活调用,而不是单一走“极致推理”路线。
2. Agent 能力的提升
V3.1 在 Agent 场景中的表现也有明显改进:
- 长链条任务规划:在 Aider Benchmark、LiveCodeBench 等评测中,V3.1 在保持推理能力的同时,更能稳定完成复杂多步骤代码生成和调试,说明其在“自洽任务执行”上更强。
- 工具调用与任务协调:虽然尚未开源,但在评测反馈中可以看到 V3.1 的“深度思考”模式能更自然地衔接工具调用,相较 V3-0324 更少中断,较 R1 更均衡。
- 应用价值:这使得 V3.1 在 Agent 应用场景(如自动问答、运维助手、产品设计助手等)中,更具落地性——不仅能推理,还能把结果落实到工具链条中。
总结洞察
- 对比 V3-0324:V3.1 不仅提升了精度和鲁棒性,更在推理/非推理混合模式下表现优异,解决了前代模型“只能跑快但不够深”的短板。
- 对比 R1-0528:V3.1 正在逐渐接近 R 系列的推理优势,同时在 Agent 能力和成本控制上更有优势,成为更均衡的选择。
整体来看,V3.1 的核心价值在于:用混合模式和强化 Agent 能力,推动大模型从“只会答题”走向“能规划、能执行”的下一步。
📊 左右滑动可查看更多模型数据 →
DeepSeek-V3.1
DeepSeek-AI 发布的聊天大模型模型。
核心信息
开发机构
DeepSeek-AI

发布时间
2025-08-20
模型类型
聊天大模型
MoE 架构
性能与规格
总参数量
6,710 亿
激活参数量
370 亿
模型大小
1340GB
推理能力
推理速度
思考模式
深度思考
最大上下文
128K
最大输出
8192
支持模态
Input
Output
API 价格 (每百万Tokens)
输入价格
0.56 美元/100 万tokens
输出价格
1.68 美元/100 万tokens
开源与许可
代码开源
否
权重开源
否
商业用途
免费商用授权
相关资源
论文/报告
模型详细介绍
阅读
相关链接
DeepSeek-V3-0324
DeepSeek-AI 发布的聊天大模型模型。
核心信息
开发机构
DeepSeek-AI

发布时间
2025-03-24
模型类型
聊天大模型
MoE 架构
性能与规格
总参数量
6,810 亿
激活参数量
未公开
模型大小
700GB
推理能力
推理速度
思考模式
深度思考
最大上下文
160K
最大输出
0
支持模态
Input
Output
API 价格 (每百万Tokens)
输入价格
0.27 美元/100万 tokens
输出价格
1.1 美元/100万 tokens
开源与许可
代码开源
否
权重开源
否
商业用途
免费商用授权
相关资源
论文/报告
模型详细介绍
阅读
相关链接
DeepSeek-R1-0528
DeepSeek-AI 发布的推理大模型模型。
核心信息
开发机构
DeepSeek-AI

发布时间
2025-05-28
模型类型
推理大模型
MoE 架构
性能与规格
总参数量
6,710 亿
激活参数量
370 亿
模型大小
685GB
推理能力
推理速度
思考模式
深度思考
最大上下文
64K
最大输出
64000
支持模态
Input
Output
API 价格 (每百万Tokens)
输入价格
0.55 美元/ 100 万tokens
输出价格
2.19 美元/ 100 万tokens
开源与许可
代码开源
否
权重开源
否
商业用途
免费商用授权
相关资源
论文/报告
查看
模型详细介绍
--
相关链接
评测对比模式筛选
当前大多数模型的评测都有不同的模式,包括是否使用推理过程,是否使用工具等,建议选择特定模式对比。
点击下方任一按钮,将 过滤模型的模式的对比表格,并同步更新
汇总图 与 各基准小图。
DeepSeek-V3.1与DeepSeek-V3-0324、DeepSeek-R1-0528模型各评测基准得分对比表
评测基准 | DeepSeek-V3.1 thinking | DeepSeek-V3.1 normal | DeepSeek-V3-0324 normal | DeepSeek-R1-0528 thinking |
---|---|---|---|---|
HLE
知识问答
|
15.9 | 0 | 5.2 | 17.7 |
GPQA Diamond
常识推理
|
80.1 | 74.9 | 68.4 | 81 |
SWE-bench Verified
代码生成
|
0 | 66 | 38.8 | 57.6 |
AIME 2024
数学推理
|
93.1 | 66.3 | 59.4 | 91.4 |
LiveCodeBench
代码生成
|
74.8 | 56.4 | 49.2 | 73.3 |
AIME2025
数学推理
|
88.4 | 49.8 | 47.7 | 87.5 |
Terminal-Bench
综合评估
|
0 | 31.3 | 13.3 | 5.7 |
Aider Benchmark
代码生成
|
76.3 | 68.4 | 55.1 | 71.4 |