1. 模型定位与发布状态
GPT-image-2 是 OpenAI 开发的下一代图像生成模型,目前尚未正式发布,仍处于灰度测试阶段。根据社交平台 X、大模型竞技场 Chatbot Arena 及多家科技媒体的综合信息,该模型于 2026 年 4 月上旬意外泄露,并以多个匿名代号短暂现身于 Chatbot Arena 的评测环境中。相关信息如下:
- 发布机构:OpenAI
- 当前状态:未发布 / 传闻(灰度测试中,仅部分 ChatGPT 用户可随机触发)
- 泄露渠道:大模型竞技场 Chatbot Arena 匿名测试;部分 ChatGPT 用户灰度触发生成
- 测试代号:maskingtape-alpha、gaffertape-alpha、packingtape-alpha(均以“alpha”为后缀,暗示处于早期测试阶段)
- 内部代号:GPT-5o / Spud(据传)
2. 架构与技术规格
根据泄露信息和多方技术分析,GPT-image-2 预计将采用全新的独立架构,而非 GPT-4o 或 DALL-E 系列的衍生或优化版本。该架构预期将突破传统扩散模型(Diffusion Model)的局限,尤其在文本渲染与语义一致性方面实现质的提升。目前缺乏来自 OpenAI 官方的关于参数规模、上下文窗口的具体数据,但基于泄露信息的技术规格推测如下:
- 核心架构:全新独立多模态架构,非扩散模型或 GPT-4o 衍生
- 预期分辨率:原生 4K 输出(2048×2048 或 4096×4096),支持 16:9 宽屏比例
- 生成速度:预计 3 秒内生成
- 文件支持:每张图像应小于 25MB 的 PNG、WEBP 或 JPG 文件,最多可通过数组提交 16 张图像
- 训练数据:未公开。从实测表现推断,训练数据在视觉多样性、文字排版与多语言领域覆盖范围上应显著优于前代。
3. 核心能力与模态支持
GPT-image-2 是一款多模态图像生成模型,支持文本到图像(Text-to-Image)以及图像编辑(Image Editing)能力。基于当前泄露的评测,该模型的核心能力体现在以下方面:
- 文字渲染:生成图像中的文字清晰、逻辑性强,支持中文、阿拉伯文等非拉丁文字(CJK),在中文书法、复杂排版、LOGO 设计等任务中表现突出。在标准评测中,文字渲染预期精度可达 99% 以上,较前代 GPT-image-1.5 提升显著。但在中文草书等复杂书法场景中仍存在笔画与结构的不一致现象。
- 世界知识:具备丰富的世界知识,能够准确还原真实品牌的细节、标志性人物特征及物理常识,生成的图像与真实世界的逻辑高度吻合。例如,在生成钟表图像时可精准渲染表盘上的特定时间,生成真实人物肖像时面部特征高度逼真。
- 照片真实感:纹理与光影接近真实摄影,人像质感、皮肤细节、发丝光影等细节还原度极高,且已修复前代模型普遍存在的“黄色滤镜”色彩偏移问题。
- 复杂场景理解:能够处理信息密度极高的场景(如 UI 界面、网页截图),理解并还原约 90% 的视觉信息,在生成 Minecraft 游戏截图等复杂场景中表现出色。
- 图像编辑:支持局部编辑、遮蔽、高清修复、去除背景纹理与水印等操作,且编辑后的图像与原始图像几乎无可见差异,有效解决了前代模型在编辑过程中出现的原图偏离问题。
- 角色一致性:在多轮生成或故事性场景中,能保持人物角色、物体特征的一致性,适用于漫画、故事板等内容创作。
4. 与前代模型的对比差异
相较于前代 GPT-image-1.5(发布于 2025 年 12 月),GPT-image-2 在多维度上实现了“史诗级”蜕变,社区普遍认为其已对竞品(如谷歌 Nano Banana Pro)形成“降维打击”。具体对比差异如下:
- 架构:GPT-image-1.5 基于自回归架构优化,而 GPT-image-2 采用全新独立架构,非 GPT-4o 衍生,预计在底层架构上实现根本性变革。
- 文字渲染:GPT-image-1.5 已显著改善文字生成能力,但在复杂排版和中文等非拉丁文字上仍存在局限性;GPT-image-2 在文字清晰度、准确性、多语言支持及密集文字处理上实现质的飞跃。
- 色彩还原:GPT-image-1.5 部分修复了前代的“黄色滤镜”问题,但未彻底解决;GPT-image-2 已修复该问题,色彩还原更加自然、精准。
- 分辨率:GPT-image-1.5 最大分辨率为 1536×1024;GPT-image-2 预计支持原生 4K 输出及 16:9 宽屏比例,满足专业内容创作和商业印刷需求。
- 人像真实感:GPT-image-1.5 在人像生成上已有良好表现,但皮肤质感、面部细节仍有“AI 感”;GPT-image-2 已跨越“恐怖谷”效应,生成结果在皱纹、胡须、光影等细节上高度逼真,与真实照片难以分辨。
- 图像编辑保真度:GPT-image-1.5 在编辑过程中可能出现偏离原图的问题;GPT-image-2 编辑后的图像与原始图像几乎无可见差异。
5. 已知局限
尽管 GPT-image-2 展现了惊人的能力,但根据泄露评测,其在空间推理能力方面仍显不足。例如,在魔方镜面反射图像推理测试中未能通过,该问题被认为是行业范围内的技术挑战。此外,在中文草书等极复杂书法场景中,笔画结构的一致性仍有提升空间。
6. 访问与产品线信息
OpenAI 尚未公布 GPT-image-2 的 API 访问方式与许可条款,亦未提供官方在线演示。现有能力评估均基于泄露测试结果。此外,OpenAI 已宣布 DALL-E 2 和 DALL-E 3 将于 2026 年 5 月 12 日停止服务,所有依赖相关 API 的应用必须在此之前迁移至 GPT Image 系列。这一举措被视为为 GPT-image-2 的正式发布铺路。
7. 信息源说明
上述内容整理自以下公开渠道信息(信息收集截至 2026 年 4 月 15 日):
- 大模型竞技场 Chatbot Arena 匿名测试数据(代号:maskingtape-alpha / gaffertape-alpha / packingtape-alpha,已于 2026 年 4 月初下线)
- 社交平台 X 上由独立开发者 Pieter Levels 等人发起的社区讨论与实测反馈
- 科技媒体 163.com、news.qq.com、inside.com.tw 等发布的泄露报道与分析
- 技术博客 help.apiyi.com、0xzx.com 等发布的前瞻解读与产品线演进梳理
请注意:由于 OpenAI 尚未对该模型进行正式公告,以上所有信息均基于非官方来源,其最终规格与性能表现需以 OpenAI 官方发布为准。