Emu
Emu is an AI model published by Facebook AI研究实验室, released on 2023-09-27, for 多模态大模型, with 28.0B parameters, and 2K tokens context length, requiring about 6GB storage, under the 不开源 license.
Data sourced primarily from official releases (GitHub, Hugging Face, papers), then benchmark leaderboards, then third-party evaluators. Learn about our data methodology
MetaAI发布的Emu模型是一个高质量的文本生成图片大模型,它包含了两个阶段,预训练阶段使用11亿的图像文本数据集训练,然后再使用高质量的几千张数据集进行微调。这个模型的最大特点是提出了指令微调这个概念,可以用较少的高质量图片微调文本生成图像大模型,获得更高质量的输出结果,但是不丢失预训练获得的基础能力。
Emu不是一个开源的模型,因此缺少很多细节,MetaAI在论文中表示,他们使用了一个11亿参数的很大的U-Net来做预训练。他们增加了模型中的channel size以及每个阶段堆叠的残差块数量来扩大U-Net网络。
U-Net 是一种深度学习网络,最初用于医学图像分割。它的特点是具有一个对称的“U”形结构,由两部分组成:收缩路径(用于捕获上下文信息)和扩展路径(用于精确定位)。这种结构使U-Net特别适合图像中精确位置信息的处理任务。U-Net被认为是一种高效且实用的网络,特别是在需要精确分割的应用场景中。
Emu的具体信息总结如下:
| 项目 | 详细信息 |
|---|---|
| 模型架构 | 基于潜在扩散模型的单阶段模型 |
| 预训练参数量 | 自动编码器:16通道<br>U-Net:可训练参数28亿 |
| 预训练数据量 | 11亿幅图像文本对 |
| 微调数据量 | 2000幅人工筛选高质量图像 |
| 微调设置 | 批量大小64,噪声偏移0.1 |
| 微调迭代轮数 | 15000轮 |
| 生成分辨率 | 1024x1024 |
| 效果 | 视觉诱惑性明显优于当前SOTA模型SDXLv1.0 |
| 提出方法 | 质量调优 - 使用极少量高质量数据微调 |
| 主要结论 | - 微调数据质量高于数量<br>- 质量调优可泛化到其他模型架构 |
尽管MetaAI没有开源这个模型,但是论文中给出了模型的具体效果,十分震撼。而且作者将其与Stable Diffusion XL 1.0做了对比,认为Emu比SDXL 1.0好。在人工匿名评价中,68.4%的人更加喜欢Emu生成的结果。


尽管MetaAI没有开源这个模型,但是Meta却上线了一个免费的文本生成图片的系统:Imagine,目前可以免费使用,额度很高,速度很快,但是目前仅支持美国地区。
欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送
