Step3是阶跃星辰于2025年7月31日推出的一个前沿多模态推理模型。它的核心设计理念是在提供顶级视觉-语言推理性能的同时,最大限度地降低解码成本。
主要特点
- 混合专家架构 (MoE):Step3采用了混合专家(Mixture-of-Experts)架构,总参数量达到3210亿,但每次推理时仅激活其中的380亿参数。这种设计旨在平衡模型的强大能力与计算资源的有效利用。
- 高性价比的解码效率:为了解决大模型在解码阶段(即生成内容时)计算成本高昂的问题,Step3进行了模型与系统的协同设计。它通过两项关键技术来提升效率:
- 强大的多模态能力:
性能表现
根据官方公布的数据,Step3在保持强大性能的同时,实现了卓越的成本效益。
- 推理吞吐量:在同等硬件条件下(Hopper GPU),Step3的解码吞吐量显著优于同类模型(如DeepSeek-V3)。在4096上下文长度、FP8精度下,其吞吐量可达每秒每GPU 4039个token,远高于DeepSeek-V3的2324个。
- 成本效益前沿:Step3在激活参数量和解码成本之间取得了新的平衡,推动了行业的前沿标准。
已知问题
阶跃星辰也坦诚地指出了模型目前存在的一些局限性:
- “死亡专家”现象:在训练过程中,研究人员发现了一个新的问题,即某些“专家”的输出权重在训练中趋近于零,导致它们虽然接收了计算任务,但对模型的最终输出没有实际贡献。这不同于常见的“路由器崩溃”问题,其根本原因仍在研究中。
- 能力权衡:长时间的多模态推理训练带来了一个权衡问题——随着模型文本推理能力的提升,其视觉感知准确性反而有所下降。
- 特定场景优化不足:模型在“vibe coding”(一种更注重风格和感觉而非严格逻辑的编程方式)方面的能力有待优化。
总结
总而言之,Step3是一个在设计上着重于解决大模型实际部署中“解码成本”这一核心痛点的多模态模型。它通过模型架构(MFA)和推理系统(AFD)的协同创新,在保证强大性能的同时,实现了业界领先的推理效率和性价比。尽管还存在一些待解决的技术问题,但它为大模型,特别是多模态模型的发展提供了一个颇具前景的降本增效方案。