ERNIE-4.5-VL-28B-A3B-Thinking Multimodal Reasoning Model
支持
131K tokens
推理大模型
2025-11-11
ERNIE-4.5-VL-28B-A3B-Thinking 基于 ERNIE-4.5-VL-28B-A3B 架构,通过额外中间训练和多模态强化学习进一步优化多步推理与视觉-文本对齐,用于公开提供强化“thinking mode”的多模态版本。
模型沿用 28B 总参数与约 3B 激活参数的多专家 MoE 结构,支持文本与图像输入,并提供最长 131072 tokens 上下文。根据官方模型卡说明,该版本在高质量视觉-语言推理数据上进行增量训练,并在可验证任务上采用多种强化学习与难度采样策略,以提升在图表理解、复杂场景问答与跨模态推理中的稳定性和一致性。
在能力方面,ERNIE-4.5-VL-28B-A3B-Thinking 面向显式思考与长链路推理使用,适配 reasoning-parser 与 tool-call-parser 等组件,可输出更细粒度的中间推理过程,增强对 STEM 场景图片题、多步视觉 Grounding、长文档可视化结构解析以及视频片段时间轴理解等任务的支持,并便于作为多模态 Agent 的核心推理引擎集成外部工具。
典型应用包括要求可解释推理链的多模态问答系统、复杂报表和工程图纸分析、多工具联动的企业级多模态 Agent 等。由于思考模式会带来更长的上下文与生成开销,在部署时需要结合硬件资源对最大上下文与输出长度进行约束;对于涉及安全与合规的高风险场景,仍需配套审计与策略约束。
该模型同样以 Apache 2.0 许可证开源,提供 Hugging Face 权重与 FastDeploy/ERNIEKit 支持,方便在通用推理框架和企业环境中落地部署。
关注DataLearnerAI微信公众号,接受最新大模型资讯