简单几步教你如何在搭建并使用DALL·E开源版本来基于文字生成图片
基于文本生成图像是NLP和CV领域这几年非常火热的领域,而OpenAI在2021年发布了DALL·E2和谷歌的大概是第一个大规模预训练模型里专门用来生成图片的模型(这也是一个120亿参数版本的GPT-3,官方说专门用来做text-to-image的)。而最近这段时间,DALL·E2和谷歌的Imagen的出现,展示了更高质量的图片生成模型(OpenAI第二代DALL·E发布,可以使用自然语言创造和编辑图片的模型)。
不过,两家都没有将这些模型公开,OpenAI的意思就是我这玩意太厉害,随便放出来可能会被你们做坏事,而谷歌训练这个应该就是为了云服务挣钱,所以都没有公开可用的版本供大家玩耍。虽然业界有基于论文的实现,但是训练模型需要耗费大量的资源,没有开放的预训练结果,我们普通个人也很难玩起来。但是,大神Sahar提供了一个免费使用开源实现的text-to-image预训练模型的方式。
首先,业界已经有Boris Dayma童鞋开发了开源实现和训练的复刻DALL·E模型的代码。目前已经公开可用的包括DALL·E mini。这个版本已经可以在hugging face上使用了:https://huggingface.co/spaces/dalle-mini/dalle-mini
而这位童鞋的更高级的DALL·E Mega正在训练中,还没完全训练完。不过,这些训练也是耗费钱的,所以即便公开可用,咱们自己机器也很难搞起来。
完成!如果你的前面运行不对,这里会提示没有找到DALL·E的服务器。







