In

Intern-S1

多模态大模型

Intern-S1

发布时间: 2025-07-27

551
模型参数(Parameters)
2410.0
最高上下文长度(Context Length)
128K
是否支持中文
支持
推理能力(Reasoning)

模型基本信息

是否支持推理过程

支持

最高上下文输入长度

128K tokens

最长输出结果

16384 tokens

模型类型

多模态大模型

发布时间

2025-07-27

模型预文件大小

481.6 GB

推理模式
常规模式(Non-Thinking Mode) 思考模式(Thinking Mode)

开源和体验地址

代码开源状态
预训练权重开源
Apache 2.0 - 免费商用授权
GitHub 源码
Hugging Face
在线体验

官方介绍与博客

官方论文
暂无官方论文
DataLearnerAI博客
暂无介绍博客

API接口信息

接口速度(满分5分)
接口价格
暂无公开的 API 定价信息。

Intern-S1模型在各大评测榜单的评分

综合评估

共 2 项评测
MMLU Pro normal
83.50
25 / 105
GPQA Diamond normal
77.30
46 / 133

数学推理

共 1 项评测
AIME2025 normal
86
36 / 93

发布机构

上海人工智能实验室
上海人工智能实验室
查看发布机构详情

Intern-S1模型解读

Intern-S1是一个被提出的开源多模态推理模型。该模型旨在结合强大的通用任务处理能力与在广泛科学任务上的高性能表现,并声称其性能可与领先的闭源商业模型相媲美。


模型架构与训练

Intern-S1的基础架构基于一个2350亿参数的MoE(Mixture-of-Experts)语言模型(源自Qwen3),以及一个60亿参数的InternViT视觉编码器。该模型经过了进一步的预训练,使用了5万亿(5 trillion)多模态数据令牌,其中包含超过2.5万亿(2.5 trillion)的科学领域数据令牌。这种训练方式旨在使模型在保持强大通用能力的同时,在解释化学结构、理解蛋白质序列和规划化合物合成路线等专业科学领域表现出色,使其定位为适用于实际科学应用的有力研究助手。


主要特性

  • 综合性能: 在语言和视觉推理基准测试中,尤其是在科学任务上,展现出强大的性能。
  • 深度领域专业知识: 通过在包含超过50%专业科学数据的5万亿令牌大规模数据集上持续预训练,模型融入了深厚的领域专业知识。
  • 动态分词器: 集成了动态分词器,支持对分子式、蛋白质序列和地震信号等专业数据进行原生理解。

性能评估


Intern-S1的性能已在多种基准测试中进行评估,包括通用数据集和科学数据集,并与近期其他视觉-语言模型(VLMs)和大型语言模型(LLMs)进行了对比。评估工具采用OpenCompass和VLMEvalkit。


根据公布的数据,Intern-S1在多个基准测试中取得了显著成绩:


  • 在MMLU-Pro、MMMU、MMStar、MathVision和Physics等通用与交叉领域基准测试中,Intern-S1报告取得了开源模型中的最佳性能(标记为“✅”)。
  • 在多个科学和专业领域基准测试中,Intern-S1被标记为所有参评模型中的最佳表现者(标记为“👑”),包括MathVista、SFE、SmolInstruct、ChemBench、MatBench、MicroVQA、MSEarthMCQ和XLRS-Bench。
  • 在如GPQA、AIME2025、IFEval和ProteinLMBench等其他基准测试中,Intern-S1也展现出竞争力,部分与顶尖模型接近。

总体而言,Intern-S1在开放源代码多模态模型中表现突出,尤其在科学相关任务上显示出其优势,并在部分关键科学基准上超越了包括一些闭源模型在内的所有参评模型。

    关注DataLearnerAI公众号

    关注DataLearnerAI微信公众号,接受最新大模型资讯

    DataLearnerAI WeChat