ER

ERNIE-4.5-VL-28B-A3B

多模态大模型

ERNIE-4.5-VL-28B-A3B Multimodal MoE Chat Model

发布时间: 2025-08-20

18
模型参数(Parameters)
280.0
最高上下文长度(Context Length)
131K
是否支持中文
支持
推理能力(Reasoning)

模型基本信息

是否支持推理过程

支持

最高上下文输入长度

131K tokens

最长输出结果
暂无数据
模型类型

多模态大模型

发布时间

2025-08-20

模型预文件大小
暂无数据
推理模式
常规模式(Non-Thinking Mode)

开源和体验地址

代码开源状态
预训练权重开源
Apache 2.0 - 免费商用授权
GitHub 源码
Hugging Face
在线体验
暂无在线体验地址

官方介绍与博客

官方论文
DataLearnerAI博客
暂无介绍博客

API接口信息

接口速度(满分5分)
接口价格
暂无公开的 API 定价信息。

ERNIE-4.5-VL-28B-A3B模型在各大评测榜单的评分

当前尚无可展示的评测数据。

发布机构

ERNIE-4.5-VL-28B-A3B Multimodal MoE Chat Model模型解读

ERNIE-4.5-VL-28B-A3B 是百度 ERNIE 4.5 开源家族中的轻量级多模态 MoE 视觉语言模型,由 ERNIE 团队在统一异构 MoE 架构基础上针对文本和图像任务进行后训练得到,定位为在较低激活参数规模下覆盖通用多模态理解与对话场景的核心模型之一。

该模型采用 28B 总参数、3B 激活参数的多专家结构,通过异构模态专家划分、模态隔离路由和多模态平衡损失等技术,在保持推理效率的同时增强文本与视觉表征能力。模型上下文长度为 131072 tokens,可支持长上下文图文问答、文档与图表解析等复杂场景。训练与推理基于 PaddlePaddle、ERNIEKit 与 FastDeploy 等工具链实现,并提供 PyTorch 权重以便在 vLLM、Transformers 等生态中部署。

在能力上,ERNIE-4.5-VL-28B-A3B 支持中英文本与图像输入,面向图像描述、文档与表格理解、图表问答、视觉检索引导、多模态对话等任务进行对齐优化。根据官方博客与技术报告中展示的结果,该模型在多模态感知、文档与图表理解以及图文问答等基准上相对于同量级与同激活规模模型具有竞争力表现。

该模型适用于需要在本地或私有环境部署的多模态助手、企业知识检索与问答系统、票据和文档解析、多语言图文理解等场景。需要注意的是,训练数据与指令对齐范围仍受限,对于小语种、极端长尾视觉内容或高风险决策任务,建议配合领域规则、人工复核和安全策略。

模型权重在 Apache 2.0 许可证下开源,可通过 Hugging Face 与百度 AI Studio 获取,并可结合 ERNIEKit 持续微调和定制,以适配特定业务需求。

关注DataLearnerAI公众号

关注DataLearnerAI微信公众号,接受最新大模型资讯

DataLearnerAI WeChat