DeepSeek R1-0528 于 2025 年 5 月 28 日发布，是深度求索 R1 系列推理模型的最新更新，定位为开源 AI 领域的竞争者。本文基于 Hugging Face、OSCHINA、IT之家、cnBeta 和其他权威来源，详细分析其规格、性能、能力和上下文因素。

发布细节与可用性

模型于 2025 年 5 月 28 日在 Hugging Face 上发布，采用 MIT 许可证，确保完全开源，可用于研究和商业应用。发布时无官方公告，描述为“小版本试升级”，由深度求索代表在 WeChat 群中报告。开放用户测试，下载量为零，Hugging Face 页面显示创建于 UTC 09:46:42，最后修改于 UTC 18:01:18，获 967 个点赞，标记为文本生成、对话使用和自定义代码等，支持通过 novita、nebius 等提供商推理。

模型规格

深度求索 R1-0528 拥有 6850 亿参数，使用 BF16、F8_E4M3 和 F32 张量类型，safetensors 参数如下：

张量类型参数

BF163,918,786,560

F8_E4M3680,571,043,840

F3241,555,600

总大小为 684,531,386,000，分片分布，未量化，推理设置为“暖”，支持 2 个 finetunes 和 6 个 quantizations，Hugging Face 讨论有 59 个线程。

性能与基准

在 LiveCodeBench 上，接近 OpenAI o3 和 o4 mini，领先于 xAI 的 Grok 3 mini 和阿里巴巴的 Qwen 3。Extended NYT Connections 得分从 38.6 升至 49.8，接近 Claude Opus 4 Thinking 16k，但低于 OpenAI o 系列。用户反馈（如 X post by @chetaslua）称其推理深度和写作自然，适合复杂任务，推理时间优于 o3 和 o4 mini。

能力与改进

模型基于 DeepSeek-V3-Base，初始化自 LLaMA 和 Qwen，微调于合成数据，增强多功能性。在编程和设计方面表现优异，生成高质量代码，特别在前端页面和动态动画上，处理复杂提示能力强。用户观察显示推理深度和自然写作风格，适合 30-60 分钟的单任务处理。

成本与效率

训练成本 600 万美元，远低于 GPT-4 的 1 亿美元，使用计算资源仅为 Llama 3.1 的十分之一，性价比高，适合资源有限的组织和研究人员。

上下文因素与用户反馈

深度求索总部位于浙江杭州，由 High-Flyer 资助，专注于研究，规避中国面向消费者的 AI 法规。招聘强调技能，招募背景多样人员，包括诗歌和数学专家。X post by @chetaslua 称其性能与 OpenAI o1 相当，胜过 Claude 3.5 Sonnet 和 o1-mini，2025 年 5 月 28 日的反馈显示改进明显。

限制与未来期望

缺乏模型卡限制训练数据和偏见理解，预计将发布完整模型卡。当前下载量零，但通过多个推理提供商可用，表明兴趣增长。

结论

DeepSeek R1-0528 是 6850 亿参数模型，推理和编程能力强，成本效益高，采用 MIT 许可证，定位为开源 AI 领导者。

DeepSeek-R1-0528

模型基本信息

是否支持推理过程

最高上下文输入长度

最长输出结果

模型类型

发布时间

模型预文件大小

开源和体验地址

代码开源状态

预训练权重开源

GitHub 源码

Hugging Face

在线体验

官方介绍与博客

官方论文

DataLearnerAI博客

API接口信息

接口速度（满分5分）

接口价格

输入价格:

输出价格:

输入支持的模态

文本

图片

视频

音频

Embedding（向量）

输出支持的模态

文本

图片

视频

音频

Embedding（向量）

DeepSeek-R1-0528模型在各大评测榜单的评分

发布机构

模型介绍