模型评测对比 最新基准汇总

DeepSeek-V3.1与DeepSeek-V3-0324、DeepSeek-R1-0528模型对比

DeepSeek-V3.1 并不是一次彻底的架构革新,而是对 V3 系列在 稳定性、推理性能与代码生成能力 上的平衡升级,同时在推理模式和 Agent 应用层面有了实质性进展。

1. 推理与非推理的混合模式

与前代模型相比,V3.1 在 “thinking 模式” 与 “normal 模式” 上的差异化表现非常明显:

这意味着 V3.1 实现了推理与高效执行之间的动态平衡,适合在不同任务下灵活调用,而不是单一走“极致推理”路线。

2. Agent 能力的提升

V3.1 在 Agent 场景中的表现也有明显改进:

总结洞察

整体来看,V3.1 的核心价值在于:用混合模式和强化 Agent 能力,推动大模型从“只会答题”走向“能规划、能执行”的下一步

📊 左右滑动可查看更多模型数据 →
DeepSeek-V3.1
DeepSeek-V3.1

DeepSeek-AI 发布的聊天大模型模型。

核心信息
开发机构 DeepSeek-AI DeepSeek-AI
发布时间 2025-08-20
模型类型 聊天大模型
MoE 架构
性能与规格
总参数量 6,710 亿
激活参数量 370 亿
模型大小 1340GB
推理能力
推理速度
思考模式
深度思考
最大上下文 128K
最大输出 8192
支持模态
T T
Input
Output
API 价格 (每百万Tokens)
输入价格 0.56 美元/100 万tokens
输出价格 1.68 美元/100 万tokens
开源与许可
代码开源
权重开源
商业用途 免费商用授权
相关资源
论文/报告
模型详细介绍 阅读
相关链接 🤗
DeepSeek-V3-0324
DeepSeek-V3-0324

DeepSeek-AI 发布的聊天大模型模型。

核心信息
开发机构 DeepSeek-AI DeepSeek-AI
发布时间 2025-03-24
模型类型 聊天大模型
MoE 架构
性能与规格
总参数量 6,810 亿
激活参数量 未公开
模型大小 700GB
推理能力
推理速度
思考模式
深度思考
最大上下文 160K
最大输出 0
支持模态
T T
Input
Output
API 价格 (每百万Tokens)
输入价格 0.27 美元/100万 tokens
输出价格 1.1 美元/100万 tokens
开源与许可
代码开源
权重开源
商业用途 免费商用授权
相关资源
论文/报告
模型详细介绍 阅读
相关链接 🤗
DeepSeek-R1-0528
DeepSeek-R1-0528

DeepSeek-AI 发布的推理大模型模型。

核心信息
开发机构 DeepSeek-AI DeepSeek-AI
发布时间 2025-05-28
模型类型 推理大模型
MoE 架构
性能与规格
总参数量 6,710 亿
激活参数量 370 亿
模型大小 685GB
推理能力
推理速度
思考模式
深度思考
最大上下文 64K
最大输出 64000
支持模态
T T
Input
Output
API 价格 (每百万Tokens)
输入价格 0.55 美元/ 100 万tokens
输出价格 2.19 美元/ 100 万tokens
开源与许可
代码开源
权重开源
商业用途 免费商用授权
相关资源
论文/报告 查看
模型详细介绍 --
相关链接 🤗
评测对比模式筛选
当前大多数模型的评测都有不同的模式,包括是否使用推理过程,是否使用工具等,建议选择特定模式对比。 点击下方任一按钮,将 过滤模型的模式的对比表格,并同步更新 汇总图各基准小图

DeepSeek-V3.1与DeepSeek-V3-0324、DeepSeek-R1-0528模型各评测基准得分对比表

评测基准 DeepSeek-V3.1 thinking DeepSeek-V3.1 normal DeepSeek-V3-0324 normal DeepSeek-R1-0528 thinking
HLE
知识问答
15.9 0 5.2 17.7
GPQA Diamond
常识推理
80.1 74.9 68.4 81
SWE-bench Verified
代码生成
0 66 38.8 57.6
AIME 2024
数学推理
93.1 66.3 59.4 91.4
LiveCodeBench
代码生成
74.8 56.4 49.2 73.3
AIME2025
数学推理
88.4 49.8 47.7 87.5
Terminal-Bench
综合评估
0 31.3 13.3 5.7
Aider Benchmark
代码生成
76.3 68.4 55.1 71.4

DeepSeek-V3.1与DeepSeek-V3-0324、DeepSeek-R1-0528模型评测结果汇总对比图

DeepSeek-V3.1与DeepSeek-V3-0324、DeepSeek-R1-0528模型的API价格对比图 (文本输入/输出)

DeepSeek-V3.1与DeepSeek-V3-0324、DeepSeek-R1-0528模型在各评测基准详细对比