ERNIE-ViLG 2.0

ERNIE-ViLG 2.0 预训练模型详情

模型全称

ERNIE-ViLG 2.0

发布组织

发布日期

2022-10-00

预训练文件大小

模型参数数量(亿)

120

发布论文

ERNIE-ViLG 2.0: Improving Text-to-Image Diffusion Model with Knowledge-Enhanced Mixture-of-Denoising-Experts

ERNIE-ViLG 2.0 简介

扩散模型的最新进展彻底改变了文本到图像生成的流行技术。虽然现有的方法可以产生具有文本条件的真实高分辨率图像,但仍有几个悬而未决的问题需要解决,这限制了图像保真度和文本相关性的进一步提高。在本文中,我们提出了一个大规模的中文文本到图像扩散模型ERNIE-ViLG 2.0,它通过:(1)结合场景中关键元素的细粒度文本和视觉知识,(2)在不同的去噪阶段利用不同的去噪专家,逐步提高生成图像的质量。通过所提出的机制,ERNIE-ViLG 2.0不仅在MS-COCO上实现了最先进的零镜头FID评分6.75分,而且在图像保真度和图像-文本对齐方面也明显优于最近的模型,在双语提示集ViLG-300上并排进行人类评估。

ERNIE-ViLG 2.0所属的领域
ERNIE-ViLG 2.0相关的任务