苹果最新的M3系列芯片对于大模型的使用来说未来价值如何?结果可能不太好!M3芯片与A100算力对比!
M3系列芯片是苹果最新发布的芯片。也是当前苹果性能最好的芯片。由于苹果的统一内存架构以及它的超大内存,此前很多人发现可以使用苹果的电脑来运行大语言模型。尽管它的运行速度不如英伟达最先进的显卡,但是由于超大的内存(显存),它可以载入非常大规模的模型。而此次的M3芯片效果如何,本文做一个简单的分析。

Intel+Nvidia的大模型硬件体系
当前主流的大模型架构都是基于transformer的架构,属于一种深度学习架构的模型。使用GPU训练这样的模型速度很快。
然而,大模型的训练只有GPU是不够的。GPU主要负责并行计算和深度学习模型的训练,而CPU则负责处理数据的预处理、后处理以及管理整个训练过程的任务。GPU和CPU之间的协同工作可以实现高效的大规模模型训练。
显然这些优点共同支撑了英特尔CPU和英伟达GPU在大模型训练领域的市场份额。尤其是英伟达的显卡,是目前训练大语言模型最快的硬件。最新的H100芯片
苹果M系列芯片的大模型硬件体系
尽管苹果的芯片并不是为了大模型设计,但是苹果的一个所谓的统一内存架构和超高的内存带宽让支撑了较大规模的大模型运行。
尤其是作为消费级硬件来说,可以运行超大规模参数的大模型是非常具有优势的。
因为按照推理显存估算为参数规模的2倍来说,英伟达消费级显卡的显存最大为24GB(RTX 4090),也就是说最多只能运行12B的大语言模型(详细逻辑参考:需要多少GPU显存才能运行预训练大语言模型?大语言模型参数规模与显存大小的关系估算方法~)。
但是,早先发布的苹果M2 Ultra芯片的统一内存有192GB,按照75%作为显存使用,可以支持最大720亿参数的模型运行(192*0.75/2)。这对于消费级硬件来说非常具有吸引力。而今天发布的M3系列芯片,在性能方面的提升让我们可以看到一个更加具有诱惑力的苹果大模型硬件平台。
M3系列芯片与A100、H100的大模型推理性能对比
大模型推理的硬件指标有很多,这里我们列举部分指标作为对比结果供大家参考:
芯片型号 | 制程 | 内存带宽 | 显存大小 | CPU性能核数 | CPU能效核数 | GPU核数 | 晶体管数量 | FP32浮点性能(GPU) |
---|---|---|---|---|---|---|---|---|
M2 MAX | 5nm(第二代) | 400 GB/s | 96GB | 8 | 4 | 38 | 670亿 | 13.49 TFLOPS |
M2 Ultra | 5nm(第二代) | 800GB/s | 192GB | 16 | 8 | 76 | 1340亿 | 27.2 TFLOPS |
M3 MAX | 3nm | 400 GB/S | 128GB | 12 | 4 | 40 | 920 亿 | 17.04 TFLOPS |
M3 Ultra(预测) | 3nm | 800 GB/S | 256GB | 24 | 8 | 80 | 1840 亿 | 34.08 TFLOPS |
i9 + A100 | 7nm | 1600 GB/S | 80GB | 8 | 16 | 8192 | 540 亿 | 19.5 TFLOPS |
i9 + H100 | 4nm | 3900 GB/S | 80GB | 8 | 16 | 18432 | 800 亿 | 67 TFLOPS |
注意,这里对比的都是单芯片的性能,不包含NVLink互联后的8卡。
注意,上面的M3 Ultra是预测的结果,本次苹果没有公布。由于M2 Ultra是2个M2 Max叠加,性能也是翻倍。我们这里有理由这样假设M3 Ultra的存在。
从上图的几个关键指标可以看到,M3 Ultra的FP32的浮点性能超过了A100!但是带宽部分却没有提升,这意味着大模型的推理速度可能依然不如人意!
因此,对于大模型的推理来说,M3系列芯片最大的优势是载入更大的模型,而使用更少的资源。而如果可以有256GB的统一内存,这意味着可以载入的模型大小达到了960亿参数!十分恐怖!不过,这个带宽就不要对推理速度有什么期待了。
苹果系列芯片运行大模型的实际速度
这里也有几个网友展示了用苹果的M系列芯片运行大模型的速度。供大家参考。
使用M2 Ultra的192GB内存可以运行70亿参数的大模型(q8),在正常上下文下,推理速度是7-10个tokens每秒。如果是最长的上下文,速度下降到每秒3-5个tokens,其实这已经和人的阅读速度差不多了。还是可以的。
对于CodeLLaMA的340亿参数的模型来说,M2 Ultra芯片的内存可以让你支持100K的上下文输入,对于代码提示来说很不错了。而CodeLlama 34b q8的推理速度则是每秒10-15个tokens。
不过需要注意的是,如果使用M1 Ultra芯片运行这些模型,它的推理速度是差不多的。这大概还是内存带宽的原因。因为M1 Max、M2 Max和M3 Max满血版本的芯片内存带宽都是400GB/s,没有升级!
苹果M3系列芯片运行大模型的优缺点总结
最后简单总结一下使用苹果M系列芯片运行大语言模型的优缺点。简单来说,优点突出,就是可以载入很大的模型,按照理论估计,M3 Ultra存在的话,可以最多支持960亿参数的大语言模型的推理,而这个硬件成本和电力成本却非常低,只有消费级的硬件和资源消耗。
缺点也十分明显,就是很慢,当然,对于负载不重的场景来说,每秒10个tokens的输出也是完全够用了。
大概等苹果啥时候将M系列芯片的内存带宽提高之后,这样的硬件在大模型的运行方面可能就非常具有吸引力了。此外,苹果硬件在大模型的生态支持上也可能还有欠缺,好在PyTorch原生支持M系列芯片,这也不算搞不定的事情。
此前,DataLeanerAI也对比过非英伟达生态的大模型硬件体系,大家可以参考:突破英特尔CPU+英伟达GPU的大模型训练硬件组合:苹果与AMD都有新进展!
欢迎大家关注DataLearner官方微信,接受最新的AI技术推送
