DataLearner 标志DataLearnerAI
AI技术博客
大模型评测排行
大模型评测基准
AI大模型大全
AI资源仓库
AI工具导航

加载中...

DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
目录
目录
  1. 首页/
  2. 博客列表/
  3. 博客详情

阶跃星辰StepFun开源激活参数只有11B的Step-3.5-Flash模型,但是评测结果和Kimi K2.5、Qwen3-Max-Thinking差不多,最高推理速度可以达到350tokens/s!

2026/02/02 23:23:23
31 阅读
Step-3.5-Flash

Stepfun AI(阶跃星辰)正式发布了其最新开源基础模型Step-3.5-Flash。这款模型以“快速、锐利、可靠的agentic智能”为核心设计,采用稀疏混合专家(Sparse MoE)架构,总参数量196B,但每token仅激活11B参数,实现高效推理的同时保持前沿级性能。它支持256K超长上下文、多token并行预测(MTP-3),推理速度可达100-300 token/s,甚至在编码任务中峰值350 token/s。

作为一款专为智能体(Agent)场景优化的开源模型,Step-3.5-Flash一发布便在多个agentic和编码基准上表现出色,有很多人测试反馈速度非常美好,前端也不错。

对比当前国内顶级闭源模型Moonshot Kimi K2.5(以下简称Kimi K2.5)和阿里通义Qwen3-Max-Thinking,Step-3.5-Flash在多项任务上接近或超越,但在资源占用和推理速度方面占据绝对优势。

  • Stepfun-Flash-3.5 vs Kimi-k2.5 vs Qwen3-Max模型核心特性对比
  • Stepfun-Flash-3.5 vs Kimi-k2.5 vs Qwen3-Max基准性能对比
  • Step-3.5-Flash总结

Stepfun-Flash-3.5 vs Kimi-k2.5 vs Qwen3-Max模型核心特性对比

先看一下这三个模型的基本参数,参数量方面Stepfun-Flash-3.5最少,其他2个都是万亿参数规模,Stepfun-Flash-3.5只有1/5,激活参数方面也很少,只有11B。上下文长度256K,这一点Qwen3-Max-Thinking的100万还是有优势的:

Step-3.5-Flash的最大亮点在于高效agentic设计:它内置“Think-and-Act”协同、工具调用优化、多代理编排,以及边缘-云协同能力,支持本地部署(INT4量化后可在消费级硬件运行)。

关于三个模型更多的参数对比参考DataLearnerAI的大模型参数对比工具:https://www.datalearner.com/specs-compare/stepfun-flash-3-5/kimi-k2-5/qwen3-max

Stepfun-Flash-3.5 vs Kimi-k2.5 vs Qwen3-Max基准性能对比

Step-3.5-Flash官方提供了多维度基准对比,这里我们主要对比前不久刚发布的另外2个过程大模型,分别是开源的Kimi K2.5和闭源的Qwen3-Max-Thinking:

数据对比】Stepfun-Flash-3.5 vs Kimi-k2.5 vs Qwen3-Max,谁才是 2026 开年的性价比之王?
数据对比】Stepfun-Flash-3.5 vs Kimi-k2.5 vs Qwen3-Max,谁才是 2026 开年的性价比之王?
数据来源:https://www.datalearner.com/benchmark-compare/popular-compare/Stepfun-Flash-3_5-vs-Kimi-k2_5-vs-Qwen3-Max

简单来说,这三个模型的评测结果差距很小:

  • 编码与agentic领域:Step-3.5-Flash在SWE-bench Verified达到74.4%,仅略低于Kimi K2.5的76.8%,但远高于Qwen3-Max的69.6%。在Terminal-Bench 2.0上微弱领先Kimi,显示出更强的终端操作和长链agent能力。同时,在τ²-Bench上大幅领先Kimi Thinking变体,证明其工具调用和多代理协同更高效。
  • 数学与推理领域:Step-3.5-Flash在AIME、IMOAnswerBench等高中/国际数学竞赛基准上全面领先Kimi K2.5,显示出极强的逻辑推理能力(支持PaCoRe等增强后接近满分)。
  • 其他agent亮点:Step-3.5-Flash在xbench-DeepSearch等深度研究任务上表现突出,支持多代理循环规划、搜索与合成,适合复杂投资分析、科研等场景。

不过,Step-3.5-Flash的优势很明显:活跃参数仅11B,推理成本比另外两个低很多。

Step-3.5-Flash总结

其实,最近开源模型发展很快,性能提升也很明显,但是动不动就万亿参数规模或者DeepSeek的6700多亿参数规模,成本实在是太高。本次Step-3.5-Flash最大的价值就是参数量不过,评测结果不错,成本很低。如果实测和评测差不太多,那基本上这个模型一定具有非常高的吸引力了。

关于 Step-3.5-Flash 更多信息参考DataLearnerAI模型信息卡:https://www.datalearner.com/ai-models/pretrained-models/stepfun-flash-3-5

DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码
返回博客列表

热门博客

  • 1Dirichlet Distribution(狄利克雷分布)与Dirichlet Process(狄利克雷过程)
  • 2回归模型中的交互项简介(Interactions in Regression)
  • 3贝塔分布(Beta Distribution)简介及其应用
  • 4矩母函数简介(Moment-generating function)
  • 5普通最小二乘法(Ordinary Least Squares,OLS)的详细推导过程
  • 6使用R语言进行K-means聚类并分析结果
  • 7深度学习技巧之Early Stopping(早停法)
  • 8H5文件简介和使用