DataLearner 标志DataLearnerAI
最新AI资讯
大模型评测
大模型列表
大模型对比
资源中心
AI工具导航

加载中...

DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
页面导航
目录
大模型列表ERNIE-ViLG 2.0
ER

ERNIE-ViLG 2.0

ERNIE-ViLG 2.0

发布时间: 2022-10-27更新于: 2023-05-21 09:14:49.288743
在线体验GitHubHugging FaceCompare
模型参数
240.0亿
上下文长度
2K
中文支持
不支持
推理能力

数据优先来自官方发布(GitHub、Hugging Face、论文),其次为评测基准官方结果,最后为第三方评测机构数据。 了解数据收集方法

ERNIE-ViLG 2.0

模型基本信息

推理过程
不支持
上下文长度
2K tokens
最大输出长度
暂无数据
模型类型
基础大模型
发布时间
2022-10-27
模型文件大小
暂无数据
MoE架构
否
总参数 / 激活参数
240.0 亿 / 不涉及
知识截止
暂无数据
推理模式
暂无模式数据
ERNIE-ViLG 2.0

开源和体验地址

代码开源状态
暂无数据
预训练权重开源
暂无数据
GitHub 源码
https://github.com/PaddlePaddle/PaddleHub/blob/develop/modules/image/text_to_image/ernie_vilg/README.md
Hugging Face
https://huggingface.co/spaces/PaddlePaddle/ERNIE-ViLG
在线体验
暂无在线体验地址
ERNIE-ViLG 2.0

官方介绍与博客

官方论文
ERNIE-ViLG 2.0: Improving Text-to-Image Diffusion Model with Knowledge-Enhanced Mixture-of-Denoising-Experts
DataLearnerAI博客
暂无介绍博客
ERNIE-ViLG 2.0

API接口信息

接口速度
暂无数据
暂无公开的 API 定价信息。
ERNIE-ViLG 2.0

评测结果

当前尚无可展示的评测数据。
ERNIE-ViLG 2.0

发布机构

百度
百度
查看发布机构详情
ERNIE-ViLG 2.0

模型解读

ERNIE-ViLG 2.0是一个基于知识增强和混合去噪专家策略的文本到图像生成模型。该模型的设计理念是在学习过程中融入知识,并通过混合去噪专家策略来提高模型的生成能力。根据论文中的描述,该模型最多可以扩展到240亿参数规模。

模型简介

ERNIE-ViLG 2.0是一个基于知识增强和混合去噪专家策略的文本到图像生成模型。该模型的设计理念是在学习过程中融入知识,并通过混合去噪专家策略来提高模型的生成能力。该模型采用中文提示作为输入,生成高分辨率的图像,与最近的以英文为主的文本到图像模型不同。


模型特点
  1. 知识增强:模型在学习过程中融入知识,这有助于提高模型的生成能力。
  2. 混合去噪专家策略:该策略可以提高模型的生成能力,使生成的图像更加自然和逼真。
  3. 高分辨率图像生成:模型可以根据中文提示生成高分辨率的图像。


模型参数

论文中并未详细介绍模型的参数。


性能测试结果

根据论文中的实验结果,ERNIE-ViLG 2.0在ViLG-300上的人类评估结果显示,与DALL-E 2和Stable Diffusion等模型相比,人类评估者更喜欢ERNIE-ViLG 2.0。在图像-文本对齐和图像保真度两个维度上,ERNIE-ViLG 2.0都优于所有其他模型。此外,ERNIE-ViLG 2.0可以生成比基线模型更清晰、纹理更好的图像。


下图是与其它模型的对比结果:

可以看到,在MS-COCO 256 × 256数据集上做的文本生成图像实验中,ERNIE-ViLG2.0的效果最好。


在知识增强策略的部分,实验结果显示,将知识融入学习过程可以显著提高图像保真度、图像-文本对齐以及收敛速度。在混合去噪专家策略的部分,实验结果显示,增加专家的数量可以提高模型的生成能力,使生成的图像更加自然和逼真。

总的来说,ERNIE-ViLG 2.0模型在文本到图像生成任务上表现出色,无论是在图像质量、图像-文本对齐,还是在收敛速度上,都优于其他模型。


ERNIE-ViLG 2.0实际生成的图片效果

下图是官方发布的1024*1024的效果图,效果很好。



目前ERNIE-ViLG 2.0已经被文心系列的CV模型取代。不过HuggingFace上的demo依然可用。


DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码