Emu

Model Overview

MetaAI发布的Emu模型是一个高质量的文本生成图片大模型，它包含了两个阶段，预训练阶段使用11亿的图像文本数据集训练，然后再使用高质量的几千张数据集进行微调。这个模型的最大特点是提出了指令微调这个概念，可以用较少的高质量图片微调文本生成图像大模型，获得更高质量的输出结果，但是不丢失预训练获得的基础能力。

Emu的模型技术细节

Emu不是一个开源的模型，因此缺少很多细节，MetaAI在论文中表示，他们使用了一个11亿参数的很大的U-Net来做预训练。他们增加了模型中的channel size以及每个阶段堆叠的残差块数量来扩大U-Net网络。

U-Net 是一种深度学习网络，最初用于医学图像分割。它的特点是具有一个对称的“U”形结构，由两部分组成：收缩路径（用于捕获上下文信息）和扩展路径（用于精确定位）。这种结构使U-Net特别适合图像中精确位置信息的处理任务。U-Net被认为是一种高效且实用的网络，特别是在需要精确分割的应用场景中。

Emu的具体信息总结如下：

项目	详细信息
模型架构	基于潜在扩散模型的单阶段模型
预训练参数量	自动编码器:16通道<br>U-Net:可训练参数28亿
预训练数据量	11亿幅图像文本对
微调数据量	2000幅人工筛选高质量图像
微调设置	批量大小64,噪声偏移0.1
微调迭代轮数	15000轮
生成分辨率	1024x1024
效果	视觉诱惑性明显优于当前SOTA模型SDXLv1.0
提出方法	质量调优 - 使用极少量高质量数据微调
主要结论	- 微调数据质量高于数量<br>- 质量调优可泛化到其他模型架构