Step3

Name: Step3-321B-A38B
Author: StepFunAI

多模态大模型

Step3-321B-A38B

发布时间: 2025-07-31更新于: 2025-08-04 17:05:47804

在线体验 GitHub Hugging Face Compare

模型参数

3210亿

上下文长度

64K

中文支持

支持

推理能力

Step3-321B-A38B 是由 StepFunAI 发布的 AI 模型，发布时间为 2025-07-31，定位为多模态大模型，参数规模约为 3210亿，上下文长度为 64K，模型文件大小约 642GB，采用 Apache 2.0 许可，在 AIME2025 上取得 82.90 分。

数据优先来自官方发布（GitHub、Hugging Face、论文），其次为评测基准官方结果，最后为第三方评测机构数据。了解数据收集方法

Step3

模型基本信息

推理过程

不支持

思考模式

不支持思考模式

上下文长度

64K tokens

最大输出长度

暂无数据

模型类型

多模态大模型

输入/输出模态

文本 → 视频

发布时间

2025-07-31

模型文件大小

642GB

MoE架构

是

总参数 / 激活参数

3210亿 / 380亿

知识截止

暂无数据

Step3

开源和体验地址

代码开源状态

Apache 2.0

预训练权重开源

Apache 2.0- 免费商用授权

GitHub 源码

https://github.com/stepfun-ai/Step3

Hugging Face

https://huggingface.co/stepfun-ai/step3

在线体验

https://stepfun.ai/chats/new

Step3

官方介绍与博客

官方论文

Step3: Cost-Effective Multimodal Intelligence

DataLearnerAI博客

暂无介绍博客

Step3

API接口信息

接口速度

4/5

暂无公开的 API 定价信息。

Step3

评测结果

Step3 当前已收录的代表性评测结果包括 LiveCodeBench（57 / 123，得分 67.10）、AIME2025（54 / 107，得分 82.90）、GPQA Diamond（107 / 187，得分 73）。本页还汇总了参数规模、上下文长度与 API 价格，便于结合评测结果与部署约束一起判断模型适配度。

综合评估

共 1 项评测

评测名称 / 模式

得分

排名/总数

GPQA Diamond

107 / 187

编程与软件工程

共 1 项评测

评测名称 / 模式

得分

排名/总数

LiveCodeBench

67.10

57 / 123

数学推理

共 1 项评测

评测名称 / 模式

得分

排名/总数

AIME2025

82.90

54 / 107

多模态理解

共 2 项评测

评测名称 / 模式

得分

排名/总数

MMMU

74.20

18 / 29

SimpleVQA

62.20

2 / 3

查看评测深度分析与其他模型对比

和其他模型对比

暂时没有为该模型整理的相关对比页面。

想自定义其他组合？打开对比工具

Step3

模型变体及不同版本下载

变体名称	版本类型	量化类型	模型大小	HuggingFace 地址
Step3-FP8ℹ️	Instruct	FP8	327.11 GB	下载地址

Step3

发布机构

StepFunAI

查看发布机构详情

Step3-321B-A38B

模型解读

Step3是阶跃星辰于2025年7月31日推出的一个前沿多模态推理模型。它的核心设计理念是在提供顶级视觉-语言推理性能的同时，最大限度地降低解码成本。

主要特点

混合专家架构 (MoE)：Step3采用了混合专家（Mixture-of-Experts）架构，总参数量达到3210亿，但每次推理时仅激活其中的380亿参数。这种设计旨在平衡模型的强大能力与计算资源的有效利用。
高性价比的解码效率：为了解决大模型在解码阶段（即生成内容时）计算成本高昂的问题，Step3进行了模型与系统的协同设计。它通过两项关键技术来提升效率：
强大的多模态能力：

性能表现

根据官方公布的数据，Step3在保持强大性能的同时，实现了卓越的成本效益。

推理吞吐量：在同等硬件条件下（Hopper GPU），Step3的解码吞吐量显著优于同类模型（如DeepSeek-V3）。在4096上下文长度、FP8精度下，其吞吐量可达每秒每GPU 4039个token，远高于DeepSeek-V3的2324个。
成本效益前沿：Step3在激活参数量和解码成本之间取得了新的平衡，推动了行业的前沿标准。

已知问题

阶跃星辰也坦诚地指出了模型目前存在的一些局限性：

“死亡专家”现象：在训练过程中，研究人员发现了一个新的问题，即某些“专家”的输出权重在训练中趋近于零，导致它们虽然接收了计算任务，但对模型的最终输出没有实际贡献。这不同于常见的“路由器崩溃”问题，其根本原因仍在研究中。
能力权衡：长时间的多模态推理训练带来了一个权衡问题——随着模型文本推理能力的提升，其视觉感知准确性反而有所下降。
特定场景优化不足：模型在“vibe coding”（一种更注重风格和感觉而非严格逻辑的编程方式）方面的能力有待优化。

总结

总而言之，Step3是一个在设计上着重于解决大模型实际部署中“解码成本”这一核心痛点的多模态模型。它通过模型架构（MFA）和推理系统（AFD）的协同创新，在保证强大性能的同时，实现了业界领先的推理效率和性价比。尽管还存在一些待解决的技术问题，但它为大模型，特别是多模态模型的发展提供了一个颇具前景的降本增效方案。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信，获得最新 AI 技术推送