GPT-image-2

Name: GPT-image-2
Price: 8 USD
Availability: InStock
Author: OpenAI

多模态大模型ImageGPT Image 2

GPT-image-2

发布时间: 2026-04-21更新于: 2026-07-17 21:57:35.3932,243

在线体验GitHubHugging FaceCompare

模型参数

未披露

上下文长度

32K

中文支持

支持

推理能力

OpenAI 于 2026 年 4 月 21 日正式发布 GPT Image 2（gpt-image-2），这是其迄今最强的图像生成模型，也是首个内置原生推理能力的图像模型。新模型支持 Thinking 模式实时联网、单提示生成 8 张一致图像，文字渲染准确率从 90% 提升至 ~99%，最高输出 2K 分辨率（API Beta 支持 4K）。DALL-E 系列将于 5 月 12 日正式退役，gpt-image-2 全面接棒。

数据优先来自官方发布（GitHub、Hugging Face、论文），其次为评测基准官方结果，最后为第三方评测机构数据。了解数据收集方法

GPT-image-2

模型基本信息

推理过程

支持

思考模式

常规模式思考模式

上下文长度

32K tokens

最大输出长度

暂无数据

模型类型

多模态大模型

输入/输出模态

文本、图像 → 图像

发布时间

2026-04-21

模型文件大小

暂无数据

MoE架构

否

总参数 / 激活参数

暂无数据 / 不涉及

知识截止

暂无数据

GPT-image-2

开源和体验地址

代码开源状态

不开源

预训练权重开源

不开源

GitHub 源码

暂无GitHub开源地址

Hugging Face

暂无开源HuggingFace地址

在线体验

暂无在线体验地址

GPT-image-2

官方介绍与博客

官方论文

Introducing ChatGPT Images 2.0

DataLearnerAI博客

暂无介绍博客

GPT-image-2

API接口信息

接口速度

4/5

💡默认单位：$/100万 tokens。若计费单位不同，则以供应商公开的原始标注为准。

了解不同定价模式详解

标准模式

类型	适用条件	输入	输出
文本	-	$5.00/ 1M	$10.00/ 1M
图像	-	$8.00/ 1M	$30.00/ 1M

缓存定价Prompt缓存

类型	有效期	写入	读取
文本	-	-	$1.25/ 1M
图像	-	-	$2.00/ 1M

GPT-image-2

评测结果

当前尚无可展示的评测数据。

和其他模型对比

暂时没有为该模型整理的相关对比页面。

想自定义其他组合？打开对比工具

GPT-image-2

发布机构

OpenAI

查看发布机构详情

GPT-image-2

模型解读

2026 年 4 月 21 日，OpenAI 正式发布 ChatGPT Images 2.0，底层模型标识符为 gpt-image-2。这是 OpenAI 迄今发布的最强图像生成模型，也是其首个原生集成推理（Thinking）能力的图像模型。

与此前的 GPT Image 1 / 1.5 和 DALL-E 系列不同，gpt-image-2 并非简单的扩散模型迭代——OpenAI 研究负责人将其定位为"图像领域的 GPT"，一个从零构建的单通道推理生成架构（single-pass inference），在生成第一个像素之前就已完成对布局、语义和视觉意图的规划。

值得注意的是，DALL-E 2 与 DALL-E 3 将于 2026 年 5 月 12 日正式退役，gpt-image-2 将全面接棒成为 OpenAI 图像生成能力的核心基础设施。

二、核心参数一览

参数项详细信息

模型 IDgpt-image-2

快照版本gpt-image-2-2026-04-21

最大分辨率标准 2K；API Beta 支持 4K

宽高比范围3:1（超宽）至 1:3（超高竖向）

生成模式Instant（快速）/ Thinking（推理）

单提示最大输出图数8 张（Thinking 模式）

知识截止时间2025 年 12 月

文本渲染准确率~99%（前代 GPT Image 1.5 约 90-95%）

API 定价输入 $8 / 百万 token；输出 $30 / 百万 token

单图大致费用$0.006 – $0.211（依质量与分辨率浮动）

接入平台ChatGPT（全套餐）、Codex、API、Azure AI Foundry

三、重大技术突破

3.1 原生推理能力（Native Thinking）

这是 gpt-image-2 最具里程碑意义的变化。在选用 Thinking 或 Pro 模式时，模型具备以下全新能力：

实时联网搜索：可检索最新信息，生成包含当前内容的视觉摘要与信息图表；
自我校验：在输出前对多张候选图进行内部交叉验证，过滤不一致或错误的生成结果；
多图一致性生成：单个提示最多输出 8 张风格与对象高度一致的图像，大幅降低漫画分镜、故事板、多场景设计的制作难度。

这一能力使其从"提示响应器"升级为 OpenAI 所描述的"视觉思考伙伴（Visual Thought Partner）"。

3.2 文本渲染质量跨越式提升

AI 图像模型长期以来在图内文字生成方面表现糟糕，即便是 GPT Image 1.5 也存在约 5-10% 的文字乱码率。gpt-image-2 将准确率推至约 99%，具体表现为：

小字体、密集排版、标签、图标清晰可辨；
UI 截图、操作系统界面生成几乎以假乱真；
多语言文本渲染显著改善，尤其是日语、韩语、中文、印地语、孟加拉语等非拉丁文字。

3.3 指令遵循与构图精度

OpenAI 将本次升级描述为在指令遵循、对象位置控制、密集构图精度方面的全面提升。模型能有效处理此前常常失效的元素：小文本、图标、UI 组件、复杂多层构图，最高支持 2K 分辨率输出（API Beta 支持 4K）。

3.4 全新架构

据社区测试与研究负责人披露，gpt-image-2 并非基于 GPT-4o 的图像管线迭代，而是从头设计的独立系统，训练数据大量偏向真实世界参考素材：实际 UI 截图、店面、公共界面布局等，使模型具备更扎实的"世界知识"而非关键词联想。

四、两种生成模式对比

Instant 模式Thinking 模式

速度快速，接近即时较慢，先推理后生成

适用场景日常创作、快速草图多图一致性、精准排版、复杂设计

联网搜索✗✓

多图输出有限最多 8 张

自我校验✗✓

可用套餐全部 ChatGPT 用户Plus / Pro / Business 订阅用户

五、多平台接入方式

ChatGPT

全体用户（包括免费用户）可访问 Images 2.0；高级输出特性仅限付费套餐（Plus / Pro / Business）。

Codex

Images 2.0 已直接集成至 OpenAI 的 Codex 编程环境。开发者可在同一工作区内完成代码编写与 UI 视觉设计，无需切换工具或单独申请 API 密钥。

OpenAI API

模型标识符为 gpt-image-2，可通过标准 /v1/images/generations 接口调用。定价按 Token 计算（输入 $8/M，输出 $30/M），单张图片实际费用约为 $0.006 至 $0.211，具体取决于质量等级与分辨率。

Microsoft Azure AI Foundry

gpt-image-2 已同步上线 Azure AI Foundry（Microsoft Foundry），结合 Azure AI Content Safety 进行内容安全过滤，并支持 4K 分辨率与智能路由层（两种模式可自动匹配最优生成配置）。

六、竞争格局

截至 2026 年 4 月，LM Arena 文生图排行榜上，Google Gemini（Nano Banana Pro） 位居第一，gpt-image-1.5 排名第二。gpt-image-2 的发布明确是对谷歌的正面回应：

早期测试者报告 gpt-image-2 在 UI 截图与界面保真度 方面已超越 Google Nano Banana 2；
业界媒体 The Decoder 将其文本推理能力称为"与 Nano Banana Pro 核心能力相当的突破"；
生成速度较 GPT Image 1.5 提升约 2 倍。

七、局限性与已知问题

尽管性能大幅提升，OpenAI 也坦诚了 gpt-image-2 目前的不足：

物理世界理解仍有盲区：折纸步骤图、魔方、倾斜或反转角度的物体等需要连贯物理模型的场景仍表现欠佳；
极细密重复纹理超出精度上限：如沙粒、毛发等极高密度细节；
标注与零件图需人工复核；
迭代编辑递减效应：Wharton 教授、AI 研究者 Ethan Mollick 指出该模型存在"经典图像生成问题"——前一两轮编辑效果良好，之后进展停滞。其建议的绕过方案是将图像投入新会话以重置上下文；
水印局限性：OpenAI 采用 C2PA 元数据标记，但该标记在截图、裁剪或经平台二次压缩后即失效。

八、安全与版权

gpt-image-2 的内容安全策略结合了 OpenAI 自身的图像生成安全过滤与（Azure 平台上的）Azure AI Content Safety 分类器，覆盖敏感内容识别与滥用检测。所有生成图像均嵌入 C2PA 来源元数据（尽管并非银弹）。

十、总结

gpt-image-2 是 OpenAI 图像生成能力的一次代际跃升。从核心变化来看，它不只是"更好的图片生成器"，而是将图像生成纳入了推理-规划-验证的完整工作流，并与实时网络信息打通。对于开发者而言，最值得关注的三点是：

~99% 文字渲染准确率 使其正式具备生产级排版能力；
Thinking 模式的多图一致性 开启了漫画、分镜、多场景内容的自动化工作流；
原生推理 + 联网搜索 让图像生成第一次可以基于"现实知识"而非单纯的训练数据。

DALL-E 时代正式落幕，gpt-image-2 将接替成为 OpenAI 图像能力的核心基础。

相关资源

OpenAI 官方公告：https://openai.com/index/introducing-chatgpt-images-2-0/
API 文档：https://developers.openai.com/api/docs/models/gpt-image-2
Azure AI Foundry：https://techcommunity.microsoft.com/blog/azure-ai-foundry-blog/introducing-openais-gpt-image-2-in-microsoft-foundry/4500571
fal.ai 在线试用：https://fal.ai/gpt-image-2

GPT-image-2

常见问题

GPT-image-2 是什么模型？

GPT-image-2 支持哪些输入和输出模态？

当前官方资料记录其支持文本、图像输入，并生成图像输出。

GPT-image-2 的上下文窗口和最大输出是多少？

上下文窗口为 32K。未公开或无法确认的规格不做推测。

GPT-image-2 适合哪些任务？

根据已收录的官方能力标签，它适合推理大模型、多语言相关任务；实际效果应结合具体工作流验证。

GPT-image-2 是否提供 API，价格如何查看？

页面已收录 Facebook AI研究实验室的 6 条定价规则。价格可能随地域、上下文档位、缓存和时间变化，应以页面价格表及官方计费页为准。

GPT-image-2 是否开源？

代码与模型权重按不开源记录；使用前仍应核对官方许可原文。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信，获得最新 AI 技术推送