ST

Step3

Step3-321B-A38B

发布时间: 2025-07-31537
模型参数
3210.0亿
上下文长度
64K
中文支持
支持
推理能力

模型基本信息

推理过程
不支持
上下文长度
64K tokens
最大输出长度
暂无数据
模型类型
多模态大模型
发布时间
2025-07-31
模型文件大小
642GB
MoE架构
总参数 / 激活参数
3210.0 亿 / 380 亿
知识截止
暂无数据
推理模式
常规模式(Non-Thinking Mode)

开源和体验地址

代码开源状态
预训练权重开源
Apache 2.0- 免费商用授权

官方介绍与博客

DataLearnerAI博客
暂无介绍博客

API接口信息

接口速度
4/5
暂无公开的 API 定价信息。

评测得分

综合评估

共 1 项评测
评测名称 / 模式
得分
排名/总数
73
67 / 141

编程与软件工程

共 1 项评测
评测名称 / 模式
得分
排名/总数
67.10
37 / 99

数学推理

共 1 项评测
评测名称 / 模式
得分
排名/总数
AIME2025normal
82.90
47 / 101

多模态理解

共 2 项评测
评测名称 / 模式
得分
排名/总数
MMMUnormal
74.20
10 / 17
SimpleVQAnormal
62.20
1 / 1

模型变体及不同版本下载

变体名称版本类型量化类型模型大小HuggingFace 地址
Step3-FP8ℹ️InstructFP8327.11 GB下载地址

发布机构

模型解读

Step3是阶跃星辰于2025年7月31日推出的一个前沿多模态推理模型。它的核心设计理念是在提供顶级视觉-语言推理性能的同时,最大限度地降低解码成本。

主要特点

  • 混合专家架构 (MoE):Step3采用了混合专家(Mixture-of-Experts)架构,总参数量达到3210亿,但每次推理时仅激活其中的380亿参数。这种设计旨在平衡模型的强大能力与计算资源的有效利用。
  • 高性价比的解码效率:为了解决大模型在解码阶段(即生成内容时)计算成本高昂的问题,Step3进行了模型与系统的协同设计。它通过两项关键技术来提升效率:
  • 强大的多模态能力


性能表现

根据官方公布的数据,Step3在保持强大性能的同时,实现了卓越的成本效益。

  • 推理吞吐量:在同等硬件条件下(Hopper GPU),Step3的解码吞吐量显著优于同类模型(如DeepSeek-V3)。在4096上下文长度、FP8精度下,其吞吐量可达每秒每GPU 4039个token,远高于DeepSeek-V3的2324个。
  • 成本效益前沿:Step3在激活参数量和解码成本之间取得了新的平衡,推动了行业的前沿标准。

已知问题

阶跃星辰也坦诚地指出了模型目前存在的一些局限性:

  • “死亡专家”现象:在训练过程中,研究人员发现了一个新的问题,即某些“专家”的输出权重在训练中趋近于零,导致它们虽然接收了计算任务,但对模型的最终输出没有实际贡献。这不同于常见的“路由器崩溃”问题,其根本原因仍在研究中。
  • 能力权衡:长时间的多模态推理训练带来了一个权衡问题——随着模型文本推理能力的提升,其视觉感知准确性反而有所下降。
  • 特定场景优化不足:模型在“vibe coding”(一种更注重风格和感觉而非严格逻辑的编程方式)方面的能力有待优化。

总结

总而言之,Step3是一个在设计上着重于解决大模型实际部署中“解码成本”这一核心痛点的多模态模型。它通过模型架构(MFA)和推理系统(AFD)的协同创新,在保证强大性能的同时,实现了业界领先的推理效率和性价比。尽管还存在一些待解决的技术问题,但它为大模型,特别是多模态模型的发展提供了一个颇具前景的降本增效方案。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码