Baidu ERNIE 5.0
支持
多模态大模型
2025-11-13
百度在 2025 年百度世界大会上发布了 ERNIE 5,这是文心系列最新的基础大模型。相比上一代,ERNIE 5 在模型规模、多模态架构和推理效率方面做出了较大幅度的提升。下面从第三方角度梳理其核心信息与技术变化。
ERNIE 5 的核心亮点是其参数规模。百度在发布会上公开提到,该模型的规模约为 2.4 万亿参数,这是百度首次披露文心模型的万亿级规模数字。这个规模基本对应于当前全球主流顶级模型的参数量级,显示出其训练投入和算力资源的显著增长。
模型采用“原生全模态统一架构”,也就是在同一套 Transformer 体系内同时处理文本、图像、音频和视频等模态。这不同于过去通过多模型拼接或后期对齐的方式,而是更强调从底层实现语义融通。
从官方演示来看,ERNIE 5 能处理跨模态输入,例如从视频中提取语义信息并输出结构化文字内容,也能在图文混合问题中进行统一推理。这类能力主要来自其架构层的统一表征方式。
ERNIE 5 将不同模态的数据全部纳入同一个基础模型中训练,使得模型在内部自然共享语义空间。这种方式有两个明显技术效果:
其一,跨模态推理更自然,例如由图像直接推导文本分析,或者在视频任务中理解连续场景变化。其二,减少了传统“单模态模型 + 适配层”的信息损耗,让模型在多类型输入条件下保持输出一致性。
不过,这种架构训练成本更高,需要大量多模态高质量数据,并且对对齐策略和训练稳定性提出更高要求。
2.4T 参数规模为模型带来更强的表达能力,这通常体现在复杂推理、长链条任务、长文本生成和信息压缩能力上。大型模型的典型优势不是对单个任务的“明显提升”,而是整体表现更稳定、错误更少、长链条任务时崩溃概率更低。
不过,参数量提升也意味着推理成本、显存需求和部署延迟的上升,因此模型在推理侧需要额外优化,否则会影响实际可用性。发布会中的内容提到,ERNIE 5 专门强化了推理阶段的效率,使其在大规模参数条件下仍保持可用的响应速度。
ERNIE 5 在图像生成、视频理解和音频处理方面都展示了较明显的能力扩展。例如对视频内容进行语义分析、生成摘要,或基于图像进行结构化描述。这类任务中,模型不仅需要识别内容,还需要进行连续推理,而统一架构使得这些任务的流程更加一致。
多模态生成的提升,也说明模型在跨模态对齐、压缩与重建能力上的训练更加充分。对于视频这类长序列信息,模型需要在时间维度上构建更稳固的状态表示,这对训练流程和数据规模提出了较高要求。
ERNIE 5 另一个明确的升级点是对多轮对话和长文本的处理。发布中展示的案例表明,模型在长输入场景下的稳定性较前代明显改善,尤其在结构化任务中(如报告生成、跨段落关联推理)表现更加连贯。
这类提升一般来自两方面:
一是架构内部对长上下文的优化,例如更高的注意力预算或改进的注意力机制;
二是训练时加入了规模更大的长序列数据,使模型能稳定形成跨段语义关联。
虽然 ERNIE 5 展示了明显的技术扩展,但从技术视角来看仍存在一些客观限制。
超大规模模型普遍面临推理延迟和硬件消耗更高的问题,需要依赖特定的推理优化技术才能达到用户可接受的速度。其次,多模态能力在演示中通常较为亮眼,但实际场景中输入质量不稳定,可能导致模型输出波动。此外,训练数据来源、细节公开程度以及模型开放范围尚不明确,这些因素都会影响长期的生态发展和开发者采用程度。
ERNIE 5 是百度迄今规模最大、架构最完整的文心系列模型。2.4T 参数、统一多模态架构和推理阶段的稳定性优化构成了此次升级的主要技术亮点。从发布内容来看,它更像是针对基础能力的全面加强,而不是方向上的转变。
不过,模型在真实任务中的表现、成本结构以及进一步开放情况仍是未来的重要观察点。
关注DataLearnerAI微信公众号,接受最新大模型资讯