加载中...
加载中...
Follow DataLearner WeChat for the latest AI updates

DeepSeekAI最近发布的几个模型,如DeepSeek V3、DeepSeek R1等引起了全球的广泛关注和讨论,特别是低成本训练出高质量模型之后,引起了很多的争论。引起了大家对OpenAI、英伟达等公司未来的质疑。然而,对于DeepSeekAI的模型为什么引起了如此广泛的关注,以及大家讨论的核心内容是什么,很多人并不是很清楚。本文基于著名的独立科技行业分析师Ben Thompson的总结,配合DataLearnerAI的分析,为大家总结DeepSeek引起的全球讨论。
在正式讨论DeepSeek引起的广泛关注之前,我们先简单了解一下DeepSeekAI发布了什么?

可以看到,DeepSeekAI早在去年5月份就发布并开源了DeepSeek V2版本的模型,而直到12月份发布了DeepSeek V3之后才被全球关注和讨论,2025年1月份,DeepSeek开源了R1推理大模型之后,这个讨论达到了史无前例的热度。
虽然DeepSeek是最近发布的R1模型,但是很多重要披露(包括训练成本)是在圣诞节V3发布时公布的。而许多突破性技术早在去年1月V2发布时就已展示。
总结起来,DeepSeek引起广泛讨论和关注的原因如下:
以上是DeepSeek引起关注的主要原因,本文继续总结一些大家关注的内容。
它可以与OpenAI的4o和Anthropic的Sonnet-3.5竞争,似乎比Llama的最大模型(4050亿参数)更好。
DeepSeek模型从V2版本就已经有了突破性技术,在V2版本中,有2个核心技术:
这个数字仅包含最终训练运行成本,不包括前期研究和实验成本。从技术架构来看这个数字是合理的。DeepSeekAI官方披露是278.8万个H800小时,与此对比,Llama3.3 70B的训练时间是700万个H100小时,Llama 3.1 405B是训练了3084万个H100小时。但是,Llama模型效果实测不如DeepSeek V3,且H100的算力是高于H800的。
DeepSeek R1模型类似OpenAI的o1模型(关于o1模型的介绍参考:https://www.datalearner.com/blog/1051726184271628 )。它可以通过深度思考来解决编程、数学和逻辑问题。但是R1是开源的模型,这是当前唯一具有很强效果以及被OpenAI和Anthropic认为“独立”发现他们在内部做的创新。
DeepSeek R1 Zero是使用强化学习训练的推理模型。它的目的是为了教会其它模型如何推理,并且在没有人类监督的情况下自我进化。相比较其它模型,这个模型更为重要,它可能揭示了OpenAI o1模型训练过程中最大的创新,即如何没有人工参与情况下实现大模型的强化学习微调。即“我们迈出了利用纯强化学习(RL)提升语言模型推理能力的第一步。我们的目标是探索大型语言模型(LLMs)在没有任何监督数据的情况下发展推理能力的潜力,专注于它们通过纯强化学习过程的自我进化。”
不过DeepSeek R1 Zero模型出现了人类难以理解的语言结果以及混乱等,为此他们引入了冷启动数据来微调,以获得了R1模型。
不准确,需要澄清如下事实:
总结来说,尽管 DeepSeek 确实利用 PTX 进行了优化,但将其称为 CUDA 的“替代品”过于简化了情况。更准确地说,DeepSeek 将 PTX 与 CUDA 结合使用,以实现特定的性能提升,这间接地应对了美国出口限制带来的一些挑战。
核心的创新包括通过设计特别的模型架构,以获取更加高效的模型训练方法和针对性的GPU优化,如采用更低精度的训练(用FP8而不是FP16/32)。
DeepSeek优化了模型架构,使其更加高效,通过在低级别编程GPU来克服带宽限制等挑战,从而能够在现有硬件上以更低的成本进行训练。
简单来说,H800的带宽是有限制的(因为制裁),但是DeepSeek通过使用更低级别的编程语言(如PTX)而不是完全使用CUDA来提升硬件的使用效率。
DeepSeek高效的训练方法意味着大家不仅仅依赖英伟达GPU的进步来提升模型训练效果,也要重视模型架构和训练方法的设计。
短期内市场正在消化R1的影响,导致了大科技公司,特别是英伟达为首的卖“铲子”的企业的股票下跌。但从长远看,模型商品化和更便宜的推理对大多数科技公司都有利。
虽然面临挑战,但英伟达仍有三个有利因素:
便宜的推理允许类似微软、Amazon、Apple可以以更低的成本提供服务,反过来会导致更大的使用需求,降低基础设施成本。
因为: ChatGPT让OpenAI成为了一个消费科技公司,可以通过订阅和广告建立可持续的消费者业务。
因为: 其API业务最容易受到商品化趋势的影响。
因为:
因为:
因为:
因为: 英伟达不断推出更强大的系统满足他们的需求,付钱给英伟达买更好的硬件是阻力最小的路径。相比之下,DeepSeek被迫在较弱的硬件上做极致优化。
ScaleAI是AI训练解决方案公司,此前的采访中他们的CEO说DeepSeekAI实际上不可能用H800做出这个模型,他们实际拥有5万个H100的GPU。但是这个讨论没有证实,也没有证据,实际上DeepSeek的很多创新都是为了克服H800相比H100的内存带宽限制。因此,这个论断大概是站不住脚的。
主要有三个原因:
从合规性角度来说,它没有。H800硬件此前并不是限制范围内的,他们只是通过优化模型架构来更有效地训练。
有两面性:
DeepSeek认为开源对吸引人才很重要,且如果模型成为商品,长期差异化来自于更优的成本结构。
A: 作者认为总体是积极的:
作者认为是促成2023年拜登AI行政令。他们一直在渲染AI的危险性,同时又在建设它,这种做法既傲慢又徒劳,可能阻碍了真正的创新。