OpenAI最新的文本生成图像大模型DALL·E3发布！生成的图像不忽略每一个细节的文本！

DALL·E 系列是由 OpenAI 开发的一系列基于大型语言模型的文本到图像生成系统。它们的核心目标是将文本描述转化为高度精确的图像。DALL·E2在2022年4月发布，但是一直没有公开使用，一年半后的2023年9月21日，OpenAI发布第三代DALL·E3，并承诺将与ChatGPT集成。

DALL·E3介绍

2021年1月份，OpenAI发布了他们的DALL·E模型，它能从文字说明中创建图像，用于表达各种可由自然语言表达的概念。一年后，OpenAI发布了第二代的DALL·E模型。相比较第一代的模型，DALL·E 2，以4倍的分辨率生成更真实和准确的图像。

下图是第一代DALL·E和第二代DALL·E2的对比：

本次发布的DALL·E 3相较于OpenAI之前的系统更能理解更多的细微差别和细节，这使得大家能够轻松地将您的想法转化为极为准确的图像。简单来说，OpenAI此次发布的DALL·E3系列着重强调降低用户提示的负担，关注更多文本的细节。

现代的文本到图像系统往往会忽略一些词语或描述，迫使用户学习提示工程。DALL·E3代表了OpenAI在生成与提供的文本完全一致的图像方面的巨大进步。

DALL·E3与StableDiffusionXL-1.0对比

官方用一个实例描述了这种关注文本细节的图像生成模型的能力。如下图所示：

这张图展示了DALL·E3的细节处理，主要包含4个方面：

The sidewalks bustling with pedestrains enjoying the nightlife.（人行道上挤满了享受夜生活的行人。）
A bustling city street under the shine of a full moon. （满月照耀下熙熙攘攘的城市街道。）
At the corner stall, a young woman with fiery red hair, dressed in a signature velvet cloak, is haggling with the grumpy old vendor（在街角的摊位上，一位红头发、身穿标志性天鹅绒斗篷的年轻女子正在与脾气暴躁的老小贩讨价还价）
The grumpy vendor, a tall, sophisticated man, is wearing a sharp suit sports a noteworthy moustache and is animatedly conversing on his steampunk telphone.（这个脾气暴躁的小贩是一个高大老练的男人，穿着一套锋利的西装，留着引人注目的小胡子，在他的蒸汽朋克手机上活跃地交谈。）

上面加粗的部分表示图像中识别到的文本细节内容，可以说十分还原了。DataLearner也测试了Stable Diffusion XL的结果，如下图：

差距明显，很多细节无法还原。换一种风格：

差距依然十分明显！注意由于我们不知道DALLL·E3的提示词，我们将上述四个细节合并如下：

The sidewalks bustling with pedestrains enjoying the nightlife. A bustling city street under the shine of a full moon. At the corner stall, a young woman with fiery red hair, dressed in a signature velvet cloak, is haggling with the grumpy old vendor The grumpy vendor, a tall, sophisticated man, is wearing a sharp suit sports a noteworthy moustache and is animatedly conversing on his steampunk telphone.

DALL·E3的使用

根据OpenAI的描述，DALL·E3是在ChatGPT上原生构建的，它可以让ChatGPT用作集思广益的合作伙伴和提示的细化器。只要问ChatGPT你想在任何内容中看到什么，不管是从简单的句子还是到详细的段落都可以。

从这段描述中可以猜测，DALL·E3背后应该是接入了ChatGPT来理解用户的提示词，然后做了转换之后传给DALL·E3，生成更加详细的文本。这就导致了一个问题，也许同样的提示词，不经过ChatGPT润色很难得到更加优质的图像。而这部分会使得DALL·E3的表现很好的提示词可能无法在其它模型上应用，因为我们不知道背后ChatGPT与DALL·E3之间如何微调或者优化过。

下图是官方演示视频中DALL·E3的使用