DeepSeekAI发布DeepSeek-R1-0528更新版本,官方宣称小幅增强,评测结果提升较大,幻觉降低,json输出增强
DeepSeekAI在2025年5月28日发布了DeepSeek-R1模型的一个更新版本,称为DeepSeek-R1-0528版本。同时,还发布了DeepSeek-R1-0528对Qwen3-8B的蒸馏版模型,使其比肩阿里2350亿的Qwen3-235B-A30模型。官方宣称该版本相比较四个月前的DeepSeek-R1是“小幅提升”。但是目前看,DeepSeek-R1-0528提升幅度其实是不小的,甚至很多人认为应该称为DeepSeek-R2。
DeepSeek-R1-0528模型介绍
DeepSeek-R1-0528是DeepSeekAI发布的DeepSeek-R1更新版本,这个版本的模型依然以MIT协议开源(完全免费商用),同时架构和参数等与此前的版本一致,但主要有如下四点提升:
- 在多项评测集上明显提升
- 前端的编程能力大幅增强
- 减少了幻觉的产生
- 支持JSON格式的输出和函数调用
DeepSeek-R1-0528版本可以通过利用更多的计算资源以及后训练算法优化机制显著增强推理的深度和推理的能力。
DeepSeek-R1-0528模型在各种基准测试中表现出色,包括数学、编程和一般逻辑等。其整体性能接近OpenAI o3以及谷歌的Gemini 2.5 Pro。
DeepSeek-R1-0528模型的评测结果
DeepSeek-R1-0528在复杂任务的处理上提升明显,以美国高中数学竞赛邀请赛2025为例(AIME2025),DeepSeek-R1模型的评测结果是70%准确率,而DeepSeek-R1-0528版本的准确率达到了87.5%,提升25%!官方指出,此次性能提升主要源于模型推理深度的显著增强。具体而言,在DeepSeek-R1版本中,模型平均每个问题需消耗1.2万个推理tokens,而在其更新版本DeepSeek-R1-0528中,这一数值提升至2.3万个tokens。这种近一倍的tokens消耗增长,直观反映了模型在问题解析、逻辑推导和多步推理等环节的深度扩展能力。
DeepSeek-R1-0528可能意识到自己过度思考(overthinking)
此外,网友测试也发现了一个很神奇的现象,DeepSeek-R1-0528有时候可能知道自己过度思考了。思考过程虽然对于很多复杂的问题来说很有好处,但是有时候也会出现过度思考的情况,例如把不需要考虑的条件、场景考虑了,获得了正确答案之后感觉不对,继续思考,最后给出了错误的回答。但是,网友测试DeepSeek-R1-0528的时候发现,模型在思考过程中有时候会认为自己过度思考,从而停止继续思考,然后给出答案。
新的蒸馏版DeepSeek-R1模型:DeepSeek-R1-0528-Qwen3-8B
DeepSeek-AI还同时发布了Qwen3-8B的蒸馏版模型。官方使用DeepSeek-R1-0528对阿里开源的Qwen3-8B Base模型进行后训练处理,得到了DeepSeek-R1-0528-Qwen3-8B,该模型相比基座模型Qwen3-8B各方面评测提升10%左右,与2350亿参数的Qwen3-235B-thinking的水平差不多。这意味着,DeepSeek-R1-0528模型的思维链过程是可以显著提升小模型各方面的能力的。
欢迎大家关注DataLearner官方微信,接受最新的AI技术推送
