ERNIE-ViLG 2.0是一个基于知识增强和混合去噪专家策略的文本到图像生成模型。该模型的设计理念是在学习过程中融入知识，并通过混合去噪专家策略来提高模型的生成能力。根据论文中的描述，该模型最多可以扩展到240亿参数规模。

模型简介

ERNIE-ViLG 2.0是一个基于知识增强和混合去噪专家策略的文本到图像生成模型。该模型的设计理念是在学习过程中融入知识，并通过混合去噪专家策略来提高模型的生成能力。该模型采用中文提示作为输入，生成高分辨率的图像，与最近的以英文为主的文本到图像模型不同。

模型特点

知识增强：模型在学习过程中融入知识，这有助于提高模型的生成能力。
混合去噪专家策略：该策略可以提高模型的生成能力，使生成的图像更加自然和逼真。
高分辨率图像生成：模型可以根据中文提示生成高分辨率的图像。

模型参数

论文中并未详细介绍模型的参数。

性能测试结果

根据论文中的实验结果，ERNIE-ViLG 2.0在ViLG-300上的人类评估结果显示，与DALL-E 2和Stable Diffusion等模型相比，人类评估者更喜欢ERNIE-ViLG 2.0。在图像-文本对齐和图像保真度两个维度上，ERNIE-ViLG 2.0都优于所有其他模型。此外，ERNIE-ViLG 2.0可以生成比基线模型更清晰、纹理更好的图像。

下图是与其它模型的对比结果：

可以看到，在MS-COCO 256 × 256数据集上做的文本生成图像实验中，ERNIE-ViLG2.0的效果最好。

在知识增强策略的部分，实验结果显示，将知识融入学习过程可以显著提高图像保真度、图像-文本对齐以及收敛速度。在混合去噪专家策略的部分，实验结果显示，增加专家的数量可以提高模型的生成能力，使生成的图像更加自然和逼真。

总的来说，ERNIE-ViLG 2.0模型在文本到图像生成任务上表现出色，无论是在图像质量、图像-文本对齐，还是在收敛速度上，都优于其他模型。

ERNIE-ViLG 2.0实际生成的图片效果

下图是官方发布的1024*1024的效果图，效果很好。

目前ERNIE-ViLG 2.0已经被文心系列的CV模型取代。不过HuggingFace上的demo依然可用。

ERNIE-ViLG 2.0

模型基本信息

是否支持推理过程

最高上下文输入长度

最长输出结果

模型类型

发布时间

模型预文件大小

开源和体验地址

代码开源状态

预训练权重开源

GitHub 源码

Hugging Face

在线体验

官方介绍与博客

官方论文

DataLearnerAI博客

API接口信息

接口速度（满分5分）

接口价格

输入价格:

输出价格:

输入支持的模态

文本

图片

视频

音频

Embedding（向量）

输出支持的模态

文本

图片

视频

音频

Embedding（向量）

ERNIE-ViLG 2.0模型在各大评测榜单的评分

发布机构

模型介绍

模型简介

模型特点

模型参数

性能测试结果

ERNIE-ViLG 2.0实际生成的图片效果

关注DataLearnerAI公众号