DataLearner 标志DataLearnerAI
最新AI资讯
大模型评测
大模型列表
大模型对比
资源中心
AI工具导航

加载中...

DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
  1. 首页/
  2. 博客列表/
  3. 博客详情

OpenAI最新的文本生成图像大模型DALL·E3发布!生成的图像不忽略每一个细节的文本!

2023/09/21 09:07:48
1,646 阅读
DALL·EDALL·E3OpenAI文本生成图像

DALL·E 系列是由 OpenAI 开发的一系列基于大型语言模型的文本到图像生成系统。它们的核心目标是将文本描述转化为高度精确的图像。DALL·E2在2022年4月发布,但是一直没有公开使用,一年半后的2023年9月21日,OpenAI发布第三代DALL·E3,并承诺将与ChatGPT集成。

DALL·E3生成的图像实例
DALL·E3生成的图像实例
  • DALL·E3介绍
  • DALL·E3与StableDiffusionXL-1.0对比
  • DALL·E3的使用
  • DALL·E3的发布与其它资源

DALL·E3介绍

2021年1月份,OpenAI发布了他们的DALL·E模型,它能从文字说明中创建图像,用于表达各种可由自然语言表达的概念。一年后,OpenAI发布了第二代的DALL·E模型。相比较第一代的模型,DALL·E 2,以4倍的分辨率生成更真实和准确的图像。

下图是第一代DALL·E和第二代DALL·E2的对比:

第一代DALL·E和第二代DALL·E2的图像对比
第一代DALL·E和第二代DALL·E2的图像对比

本次发布的DALL·E 3相较于OpenAI之前的系统更能理解更多的细微差别和细节,这使得大家能够轻松地将您的想法转化为极为准确的图像。简单来说,OpenAI此次发布的DALL·E3系列着重强调降低用户提示的负担,关注更多文本的细节。

现代的文本到图像系统往往会忽略一些词语或描述,迫使用户学习提示工程。DALL·E3代表了OpenAI在生成与提供的文本完全一致的图像方面的巨大进步。

DALL·E3与StableDiffusionXL-1.0对比

官方用一个实例描述了这种关注文本细节的图像生成模型的能力。如下图所示:

这张图展示了DALL·E3的细节处理,主要包含4个方面:

  1. The sidewalks bustling with pedestrains enjoying the nightlife.(人行道上挤满了享受夜生活的行人。)
  2. A bustling city street under the shine of a full moon. (满月照耀下熙熙攘攘的城市街道。)
  3. At the corner stall, a young woman with fiery red hair, dressed in a signature velvet cloak, is haggling with the grumpy old vendor(在街角的摊位上,一位红头发、身穿标志性天鹅绒斗篷的年轻女子正在与脾气暴躁的老小贩讨价还价)
  4. The grumpy vendor, a tall, sophisticated man, is wearing a sharp suit sports a noteworthy moustache and is animatedly conversing on his steampunk telphone.(这个脾气暴躁的小贩是一个高大老练的男人,穿着一套锋利的西装,留着引人注目的小胡子,在他的蒸汽朋克手机上活跃地交谈。)

上面加粗的部分表示图像中识别到的文本细节内容,可以说十分还原了。DataLearner也测试了Stable Diffusion XL的结果,如下图:

差距明显,很多细节无法还原。换一种风格:

差距依然十分明显!注意由于我们不知道DALLL·E3的提示词,我们将上述四个细节合并如下:

The sidewalks bustling with pedestrains enjoying the nightlife. A bustling city street under the shine of a full moon. At the corner stall, a young woman with fiery red hair, dressed in a signature velvet cloak, is haggling with the grumpy old vendor The grumpy vendor, a tall, sophisticated man, is wearing a sharp suit sports a noteworthy moustache and is animatedly conversing on his steampunk telphone.

DALL·E3的使用

根据OpenAI的描述,DALL·E3是在ChatGPT上原生构建的,它可以让ChatGPT用作集思广益的合作伙伴和提示的细化器。只要问ChatGPT你想在任何内容中看到什么,不管是从简单的句子还是到详细的段落都可以。

从这段描述中可以猜测,DALL·E3背后应该是接入了ChatGPT来理解用户的提示词,然后做了转换之后传给DALL·E3,生成更加详细的文本。这就导致了一个问题,也许同样的提示词,不经过ChatGPT润色很难得到更加优质的图像。而这部分会使得DALL·E3的表现很好的提示词可能无法在其它模型上应用,因为我们不知道背后ChatGPT与DALL·E3之间如何微调或者优化过。

下图是官方演示视频中DALL·E3的使用

可以看到,用户先在ChatGPT输入内容,然后ChatGPT给出几个候选提示词,每一个提示词会生成一个图像。很精美~

DALL·E3的发布与其它资源

DALL·E 3目前正在研究预览中,将于10月通过API和今年秋季晚些时候在实验室向ChatGPT Plus和企业客户提供。也就是说,尊贵的付费的ChatGPT Plus用户在秋天就可以体验使用DALL·E3了!

需要注意的是,与之前的版本一样,OpenAI已经采取措施限制DALL·E 3生成暴力、成人或仇恨内容的能力。OpenAI也在试验一种出处分类器——一种新的内部工具,可以帮助我们识别图像是否由DALL·E 3生成。那么,要使用这种方式创造假照片造假可能也会容易被分辨~

关于DALL·E3的其它后续更新参考DataLearner的DALL·3模型信息卡:https://www.datalearner.com/ai-models/pretrained-models/DALL-E-3

DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码
返回博客列表

相关博客

  • OpenAI发布Frontier:一个企业级的Agent构建平台,把 AI 变成企业里的“数字同事”,那么OpenAI Frontier能做什么?
  • GPT-5.1 有哪些提升?来自 OpenAI 官方 AMA 的能力、推理模式、安全策略全解读
  • OpenAI发布GPT-5.1:围绕“对话体验、一致性、任务适配性”进行的系统化优化的实质性升级!重回写作排名第一!
  • 自己制作电影不是梦,视频生成大模型的巨大进步!OpenAI发布第二代视频生成大模型Sora2:物理规律符合率达到88%,可以同步生成音频!物理真实感与声音控制全面突破
  • OpenAI收入大揭秘:2024年收入40亿美金,2030年预计达到2000亿,年均复合增长超90%!ChatGPT占比将逐年下降!
  • 语音大模型正式进入Voice Agent时代!OpenAI发布GPT Realtime模型,可以直接调用接口和工具进行实时语音对话!
  • OpenAI发布GPT-5:这是一个包含实时路由的AI系统,而不仅仅是一个模型
  • OpenAI开源2个全新大模型,比肩o3-mini的GPT-OSS-20B和比肩o4-mini的GPT-120B,完全免费商用授权

热门博客

  • 1Dirichlet Distribution(狄利克雷分布)与Dirichlet Process(狄利克雷过程)
  • 2回归模型中的交互项简介(Interactions in Regression)
  • 3贝塔分布(Beta Distribution)简介及其应用
  • 4矩母函数简介(Moment-generating function)
  • 5普通最小二乘法(Ordinary Least Squares,OLS)的详细推导过程
  • 6使用R语言进行K-means聚类并分析结果
  • 7深度学习技巧之Early Stopping(早停法)
  • 8手把手教你本地部署清华大学的ChatGLM-6B模型——Windows+6GB显卡本地部署