DataLearner 标志DataLearnerAI
AI技术博客
大模型评测排行
大模型评测基准
AI大模型大全
AI资源仓库
AI工具导航

加载中...

DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
Loading comparison...
页面目录
目录
  1. 首页
  2. 模型对比
  3. 对比结果

大模型评测对比结果

自动展示选中模型的核心信息与各评测得分,可左右滑动查看完整表格。 当前对比 3 个模型的评测数据与核心参数。

StepFun Flash 3.5Kimi K2.5Qwen3-Max-Thinking
规格对比
StepFunAI

StepFun Flash 3.5

ST

StepFun Flash 3.5

发布时间2026-02-02
上下文256K
参数量1960
常规模式(Non-Thinking Mode)思考模式(Thinking Mode)
查看详情
Moonshot AI

Kimi K2.5

KI

Kimi K2.5

发布时间2026-01-27
上下文256K
参数量10000
常规模式(Non-Thinking Mode)思考模式(Thinking Mode)
查看详情在线体验
阿里巴巴

Qwen3-Max-Thinking

QW

Qwen3-Max-Thinking

发布时间2026-01-26
上下文1000K
参数量10000
常规模式(Non-Thinking Mode)思考模式(Thinking Mode)
查看详情在线体验

性能评测对比

支持不同模式与工具的榜单对比。

数据优先来自官方发布(GitHub、Hugging Face、论文),其次为评测基准官方结果,最后为第三方评测机构数据。 了解数据收集方法

性能评测对比

支持不同模式与工具的榜单对比。

全部模式
快速组合
Thinking 模式(默认)
Thinking 模式(默认) - Help
  • Default: Thinking 模式(默认) (Standard/Medium)
  • All: Thinking 模式(全部)
全部工具 & 并行

Best Overall

Qwen3-Max-Thinking · 81.80

Best Single

StepFun Flash 3.5 · AIME2025 99.80

Thinking 模式(默认)

StepFun Flash 3.5 · 2 全部模式

评测得分对比

模型数据收集自官网、Artificial Analysis等页面

筛选: 全部模式6 全部模式 · 7 评测基准
图表加载中...

评测得分表格

完整列出各模型/模式的评测得分,便于横向比较。

评测得分对比

模型数据收集自官网、Artificial Analysis等页面

7 评测基准6 全部模式
支持模式:常规思考深思工具并行
评测基准
ST
StepFun Flash 3.5StepFunAI
KI
Kimi K2.5Moonshot AI
QW
Qwen3-Max-Thinking阿里巴巴
编程与软件工程
LiveCodeBench
86.40—85.00—85.90—
SWE-bench Verified
74.40—76.80—75.30—
数学推理
AIME2025
97.3099.8096.10———
IMO-AnswerBench
85.4086.7081.80—83.90—
Agent能力评测
τ²-Bench
—88.20———82.10
AI Agent - 信息收集
BrowseComp
—69.0060.6074.90——
AI Agent - 工具使用
Terminal Bench 2.0
—51.0050.80———

其他能力

能力与规格明细

是否 MoE、商业授权、模态支持等附加能力对比。

功能与规格
ST
StepFun Flash 3.5StepFunAI
KI
Kimi K2.5Moonshot AI
QW
Qwen3-Max-Thinking阿里巴巴

模型信息卡片

开发机构
StepFunAIMoonshot AI阿里巴巴
模型全名
StepFun Flash 3.5Kimi K2.5Qwen3-Max-Thinking
模型简介
未提供未提供未提供
模型类型
聊天大模型多模态大模型推理大模型
模型代号
stepfun-flash-3-5kimi-k2-5qwen3-max
发布时间
2026-02-022026-01-272026-01-26
MoE 架构
支持支持支持

规格与性能

上下文
256K256K1000K
参数量
19601000010000
激活参数量
110320未提供
模型规模
100b100b100b
模型大小
38GB595GB未提供
推理速度
推理等级
最大输出
163841638432768
支持模式
常规模式(Non-Thinking Mode)思考模式(Thinking Mode)
常规模式(Non-Thinking Mode)思考模式(Thinking Mode)
常规模式(Non-Thinking Mode)思考模式(Thinking Mode)

开源与许可

代码开源
未提供未提供未提供
权重开源
未提供未提供未提供
商业授权
免费商用授权免费商用授权不开源

模态支持

文本 输入/输出
/
/
/
图片 输入/输出
/
/
/
音频 输入/输出
/
/
/
视频 输入/输出
/
/
/
Embedding 输入/输出
/
/
/

API 接口详情

文本 价格
输入: 0.0输出: 0.0Cache: 0.0Input (Extended): 0.0
输入: 0.6 美元/100 万tokens输出: 3 美元/100 万tokensCache: 0.1 美元/100 万tokens
输入: 1.2 美元/100万 tokens输出: 6 美元/100万 tokensInput (Extended): 2.4 美元/100万 tokensOutput (Extended): 12 美元/100万 tokensThreshold: 32K
图片 API 价格
未提供
输入: 0.6 美元/100 万tokensCache: 0.1 美元/100 万tokens
未提供
音频 API 价格
未提供未提供未提供
视频 API 价格
未提供未提供未提供
Embedding API 价格
未提供未提供未提供

资源与链接

GitHub
仓库仓库未提供
Hugging Face
模型页模型页未提供
官方页面
未提供未提供未提供
实用指南
未提供未提供未提供
论文/报告
Step 3.5 Flash: The Open Source 'Light Cavalry' for AgentsKimi K2.5: Visual Agentic Intelligence Qwen3-Max-Thinking: Pushing the Limits of Reasoning via Test-Time Scaling
DataLearnerAI
未提供重磅!Kimi K2.5发布,依然免费开源!原生多模态MoE架构,全球最大规模参数的开源模型之一,官方评测结果比肩诸多闭源模型!可以驱动100个子Agent执行!未提供

API 价格

API 价格对比

输入输出 token 价格并排展示

模型数据收集自官网、Artificial Analysis等页面