模型全称
ERNIE-ViLG 2.0
发布组织
发布日期
2022-10-00
预训练文件大小
模型参数数量(亿)
120
发布论文
ERNIE-ViLG 2.0: Improving Text-to-Image Diffusion Model with Knowledge-Enhanced Mixture-of-Denoising-Experts
扩散模型的最新进展彻底改变了文本到图像生成的流行技术。虽然现有的方法可以产生具有文本条件的真实高分辨率图像,但仍有几个悬而未决的问题需要解决,这限制了图像保真度和文本相关性的进一步提高。在本文中,我们提出了一个大规模的中文文本到图像扩散模型ERNIE-ViLG 2.0,它通过:(1)结合场景中关键元素的细粒度文本和视觉知识,(2)在不同的去噪阶段利用不同的去噪专家,逐步提高生成图像的质量。通过所提出的机制,ERNIE-ViLG 2.0不仅在MS-COCO上实现了最先进的零镜头FID评分6.75分,而且在图像保真度和图像-文本对齐方面也明显优于最近的模型,在双语提示集ViLG-300上并排进行人类评估。