Meta上线了一个基于Emu文本生成图像大模型的图像生成系统Imagine:图像细节丰富、色彩鲜明、想象力很棒,而且免费使用!
在2023年的9月26日,MetaAI发布了一个Emu大模型,这是一个文本生成图像大模型,基于28亿参数的U-Net进行预训练得到,然后使用几千张高质量图像进行质量微调(Quality-Tuning)来提高模型的效果。不过,Emu模型并没有开源。但是,上周,Meta官方发布了一个全新的独立的文本生成图像系统Imagine,可以免费创作图像,质量很高。

Imagine系统及其实测结果
Imagine是Meta在2023年12月6日发布的一个完全独立的网站系统,页面非常简洁,如前所示,左侧是一个很小的文本框,可以输入任意文本然后右侧就可以生成图像结果,当前可以一次生成四张图象(不过实测中,可能由于文本的限制,所以还会出现单个图像的结果)。
手机访问效果也不错:

这个系统此前应该是嵌入在Facebook的产品如Instagram中,此次独立可能未来也会出现更多的大模型单独应用的场景。
Imagine与DALL·E3的对比
接下来我们给出一些实测结果,对比OpenAI的DALL·E3和Meta的Imagine系统的生成图像的结果。
Prompt1:a woman in an apron works at a local bar

这个案例是MetaAI官网的实例,结果可以看到,Imagine和DALL·E3的结果质量都很高。
Prompt2:枪林弹雨中的猫狗特工

这个是电影级别的猫狗特工在枪林弹雨中的画面,详细的prompt如下:
A cinematic scene featuring a cat and a dog as secret agents, engaged in an intense gunfight. The cat agent, sleek and agile, is taking cover behind a wall, firing a small, high-tech weapon. The dog agent, larger and more robust, is tactically positioned behind a different barricade, returning fire with a larger, more powerful gun. The setting is an urban environment with dark alleys and neon signs, adding to the tense atmosphere. Bullet casings are flying, and the air is thick with the suspense of a high-stakes action movie.
这个似乎DALL·E效果更好一点。
Prompt3:清明上河图风格的现代购物
这个prompt是测试用清明上河图的绘画风格来描述现代购物的场景,但是显然DALL·E3更好点:

注意,上面的后2个示例都是通过ChatGPT生成的Prompt,所以也可能是这部分原因。而单独构造的人类语言描述的prompt,Imagine效果是非常棒的。尤其是一些虚拟的场景,例如彩色的沙漠、猫猫宇航员、夕阳下小孩和狗狗玩耍、一杯橘子汁等。

注意,这些都是一句话生成的结果,可以看到效果非常逼真,而在推特上,很多人分享的结果真的非常惊讶。而Imagine系统最大的特点是可以生成非常逼真自然的虚拟画面,例如猫猫喝饮料、彩色的森林、雪山上猫猫云朵,飞翔的猫咪等。非常具有想象力!
Imagine模型的系统使用
这个系统目前完全免费,一句prompt出四张图,而且似乎没有什么额度限制,出图速度很快,几秒钟四张图。但是目前有其它几个前提:
- 当前仅支持美国地区;
- 不支持对话式的图像生成,也就是说只能根据一段文本生成图像,没有类似ChatGPT那种对话功能;
- 需要Meta体系的账号,如Facebook账号、Instagram账号或者Meta账号登录使用。
Imagine系统的地址:https://imagine.meta.com
Imagine系统背后的模型:Emu
Imagine系统背后的模型是MetaAI在9月27日发布的Emu大模型。Emu大模型是MetaAI利用“质量微调”获得的一个文本生成图像大模型。本质上来说,MetaAI的研究人员认为,大语言模型的效果很好一个很重要的原因是经过“指令微调”,而文本生成图像显然只是用“指令微调”只能提高模型对文本的理解能力,但是生成更高质量的图像结果可能不太好。
而MetaAI在Emu模型中,先使用11亿图像-文本对数据集,来对28亿参数的UNet进行预训练,让Emu模型有了强大的图像生成能力,这个基础模型拥有强大的视觉概念,可以从文本描述中生成广泛的视觉概念和内容,包括不同Styles、Domain、主题等,体现出强大的知识学习能力。但是这个模型的图像质量不稳定,但生成效果的审美性和一致性还有提升空间,这是后续的“质量调优”要解决的。
在质量调优中,作者使用了几千张高质量图像,就可以让模型学会更高质量出图的结果。而且不会损害模型的基础视觉概念。关于Emu模型的其它信息参考DataLearnerAI的Emu模型信息卡:https://www.datalearner.com/ai-models/pretrained-models/Emu
根据MetaAI此前的描述,这个多模态大模型还可以支持图像编辑、视频生成等,但是目前还未有公开系统可用,后续关注Emu的模型信息卡,我们会定期更新。
欢迎大家关注DataLearner官方微信,接受最新的AI技术推送
