Em

Emu

多模态大模型

Emu

发布时间: 2023-09-27

473
模型参数(Parameters)
28.0
最高上下文长度(Context Length)
2K
是否支持中文
不支持
推理能力(Reasoning)

模型基本信息

是否支持推理过程

不支持

最高上下文输入长度

2K tokens

最长输出结果
暂无数据
模型类型

多模态大模型

发布时间

2023-09-27

模型预文件大小

6GB

开源和体验地址

代码开源状态
不开源
预训练权重开源
不开源 - 不开源
GitHub 源码
暂无GitHub开源地址
Hugging Face
暂无开源HuggingFace地址
在线体验
暂无在线体验地址

官方介绍与博客

API接口信息

接口速度(满分5分)
暂无数据
接口价格
暂无公开的 API 定价信息。

Emu模型在各大评测榜单的评分

当前尚无可展示的评测数据。

发布机构

Facebook AI研究实验室
Facebook AI研究实验室
查看发布机构详情

Emu模型解读

MetaAI发布的Emu模型是一个高质量的文本生成图片大模型,它包含了两个阶段,预训练阶段使用11亿的图像文本数据集训练,然后再使用高质量的几千张数据集进行微调。这个模型的最大特点是提出了指令微调这个概念,可以用较少的高质量图片微调文本生成图像大模型,获得更高质量的输出结果,但是不丢失预训练获得的基础能力。



Emu的模型技术细节


Emu不是一个开源的模型,因此缺少很多细节,MetaAI在论文中表示,他们使用了一个11亿参数的很大的U-Net来做预训练。他们增加了模型中的channel size以及每个阶段堆叠的残差块数量来扩大U-Net网络。



U-Net 是一种深度学习网络,最初用于医学图像分割。它的特点是具有一个对称的“U”形结构,由两部分组成:收缩路径(用于捕获上下文信息)和扩展路径(用于精确定位)。这种结构使U-Net特别适合图像中精确位置信息的处理任务。U-Net被认为是一种高效且实用的网络,特别是在需要精确分割的应用场景中。



Emu的具体信息总结如下:

项目详细信息
模型架构基于潜在扩散模型的单阶段模型
预训练参数量自动编码器:16通道<br>U-Net:可训练参数28亿
预训练数据量11亿幅图像文本对
微调数据量2000幅人工筛选高质量图像
微调设置批量大小64,噪声偏移0.1
微调迭代轮数15000轮
生成分辨率1024x1024
效果视觉诱惑性明显优于当前SOTA模型SDXLv1.0
提出方法质量调优 - 使用极少量高质量数据微调
主要结论- 微调数据质量高于数量<br>- 质量调优可泛化到其他模型架构



尽管MetaAI没有开源这个模型,但是论文中给出了模型的具体效果,十分震撼。而且作者将其与Stable Diffusion XL 1.0做了对比,认为Emu比SDXL 1.0好。在人工匿名评价中,68.4%的人更加喜欢Emu生成的结果。






Emu在线演示系统



尽管MetaAI没有开源这个模型,但是Meta却上线了一个免费的文本生成图片的系统:Imagine,目前可以免费使用,额度很高,速度很快,但是目前仅支持美国地区。



地址: https://imagine.meta.com/ 





关注DataLearnerAI公众号

关注DataLearnerAI微信公众号,接受最新大模型资讯

DataLearnerAI WeChat