DataLearner logoDataLearnerAI
Latest AI Insights
Model Evaluations
Model Directory
Model Comparison
Resource Center
Tool Directory

加载中...

DataLearner logoDataLearner AI

A knowledge platform focused on LLM benchmarking, datasets, and practical instruction with continuously updated capability maps.

产品

  • Leaderboards
  • 模型对比
  • Datasets

资源

  • Tutorials
  • Editorial
  • Tool directory

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner curates industry data and case studies so researchers, enterprises, and developers can rely on trustworthy intelligence.

隐私政策服务条款
Page navigation
目录
Model catalogStep3
ST

Step3

Step3-321B-A38B

Release date: 2025-07-31更新于: 2025-08-04 17:05:47670
Live demoGitHubHugging FaceCompare
Parameters
3210.0亿
Context length
64K
Chinese support
Supported
Reasoning ability

Data sourced primarily from official releases (GitHub, Hugging Face, papers), then benchmark leaderboards, then third-party evaluators. Learn about our data methodology

Step3

Model basics

Reasoning traces
Not supported
Context length
64K tokens
Max output length
No data
Model type
多模态大模型
Release date
2025-07-31
Model file size
642GB
MoE architecture
Yes
Total params / Active params
3210.0B / 380B
Knowledge cutoff
No data
Inference modes
常规模式(Non-Thinking Mode)
Step3

Open source & experience

Code license
Apache 2.0
Weights license
Apache 2.0- 免费商用授权
GitHub repo
https://github.com/stepfun-ai/Step3
Hugging Face
https://huggingface.co/stepfun-ai/step3
Live demo
https://stepfun.ai/chats/new
Step3

Official resources

Paper
Step3: Cost-Effective Multimodal Intelligence
DataLearnerAI blog
No blog post yet
Step3

API details

API speed
4/5
No public API pricing yet.
Step3

Benchmark Results

Thinking
Thinking mode details
No evaluations for this filter.
查看评测深度分析与其他模型对比
Step3

Model variants & downloads

Variant nameVersion typeQuantizationModel sizeHuggingFace link
Step3-FP8ℹ️InstructFP8327.11 GBDownload link
Step3

Publisher

StepFunAI
StepFunAI
View publisher details
Step3-321B-A38B

Model Overview

Step3是阶跃星辰于2025年7月31日推出的一个前沿多模态推理模型。它的核心设计理念是在提供顶级视觉-语言推理性能的同时,最大限度地降低解码成本。

主要特点

  • 混合专家架构 (MoE):Step3采用了混合专家(Mixture-of-Experts)架构,总参数量达到3210亿,但每次推理时仅激活其中的380亿参数。这种设计旨在平衡模型的强大能力与计算资源的有效利用。
  • 高性价比的解码效率:为了解决大模型在解码阶段(即生成内容时)计算成本高昂的问题,Step3进行了模型与系统的协同设计。它通过两项关键技术来提升效率:
  • 强大的多模态能力:


性能表现

根据官方公布的数据,Step3在保持强大性能的同时,实现了卓越的成本效益。

  • 推理吞吐量:在同等硬件条件下(Hopper GPU),Step3的解码吞吐量显著优于同类模型(如DeepSeek-V3)。在4096上下文长度、FP8精度下,其吞吐量可达每秒每GPU 4039个token,远高于DeepSeek-V3的2324个。
  • 成本效益前沿:Step3在激活参数量和解码成本之间取得了新的平衡,推动了行业的前沿标准。

已知问题

阶跃星辰也坦诚地指出了模型目前存在的一些局限性:

  • “死亡专家”现象:在训练过程中,研究人员发现了一个新的问题,即某些“专家”的输出权重在训练中趋近于零,导致它们虽然接收了计算任务,但对模型的最终输出没有实际贡献。这不同于常见的“路由器崩溃”问题,其根本原因仍在研究中。
  • 能力权衡:长时间的多模态推理训练带来了一个权衡问题——随着模型文本推理能力的提升,其视觉感知准确性反而有所下降。
  • 特定场景优化不足:模型在“vibe coding”(一种更注重风格和感觉而非严格逻辑的编程方式)方面的能力有待优化。

总结

总而言之,Step3是一个在设计上着重于解决大模型实际部署中“解码成本”这一核心痛点的多模态模型。它通过模型架构(MFA)和推理系统(AFD)的协同创新,在保证强大性能的同时,实现了业界领先的推理效率和性价比。尽管还存在一些待解决的技术问题,但它为大模型,特别是多模态模型的发展提供了一个颇具前景的降本增效方案。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码