神秘的图片生成和编辑大模型Nano Banana是什么?背后是Google吗?什么时候发布?能否颠覆Adobe

标签:#NanoBanana##图片生成大模型##图片编辑大模型# 时间:2025/08/24 16:43:54 作者:小木

最近,一个代号 “Nano Banana” 的神秘图像生成与编辑大模型突然在社交网络上掀起风暴。与此前所有模型截然不同,它似乎拥有保持人脸一致性的能力:无论角度、光影如何变化,人物的面容始终稳定;它还能读懂照片里的故事,精准捕捉场景氛围,并服从多步骤、高复杂度的指令。然而,它的来源仍然完全成谜——没有官方文档,没有作者署名,甚至没有一行技术白皮书。极致的神秘感与惊人的效果形成巨大反差,像磁铁般吸住了整个社区的目光:它究竟出自谁手?能力边界到底在哪儿?

nano banana大模型简介

本文会介绍一下这个模型当前已知的信息,以及如何使用。

[TOC]

Nano Banana模型特点

Nano Banana最早出现在大模型匿名竞技场的官网LM Arena上,在图像生成和编辑的对比测试中出现。但是,这个模型无法直接选择并对话,只能通过匿名对比的方式随机命中。

随着用户接触增多,逐渐发现该模型的表现明显不同于现有主流模型。

Nano Banana模型在一致性方面表现优秀,人物表情更自然

在当前的图片生成和编辑大模型中,一个最大的难题是保持人物或者事物的一致性。例如,图像编辑或者转换场景的时候,人脸很难保持原有的一致性,此外光照、背景等也常常发生不合理的变化。

但是Nano Banana在这方面表现很好。如下图所示,这是一个Nano Banana更改人物表情的测试,结果非常自然,几乎难以分辨与真实照片的差异


对比来自@hellorob

相比较当前的模型,如Kontext等,Nano Banana模型更加自然,也没有那么夸张。以“惊讶”为例,对比一下Nano Banana和Kontext,后者显得更加夸张。

Nano Banana模型图片情景理解强,场景保持很好

除了一致性外,Nano Banana对于图片情景的理解和真实性保持也非常好。以下图为例,原始图片的两位女士的场景和灯光保持不变的情况下,让她们移动到台球桌边并表现为正在打台球。Nano Banana都可以在场景、灯光、风格保持一致的情况下完成转换,且真实性很好。


测试来自@D_studioproject

Nano Banana模型可以基于现有真实图片引用合成

除了上述编辑外,在图片合成方面也很突出。它不仅支持基于文本生成图片,还可以接收多张原始图片作为输入,然后通过文本指令合成一个新的图片。新图片里的元素会引用原始图片:


测试来自@HalimAlrasihi

这个测试是让Nano Banana将已有的4张图片的元素组合到一起,形成一个新的图片。可以看到,新图片质量很好,几乎保留了原图片的全部细节,仅在局部(如鞋带)上存在轻微瑕疵。

Nano Banana甚至可以做人体3D建模和标注

除了前面的合成和编辑外,大家还发现Nano Banana对于照片的3D建模也很不错,甚至是人体的3D建模和骨骼标注。


上图直接通过prompt,将荷兰弟的体型3D标注出来了,非常精准,手腕、衣服褶皱部分的建模都很准确。

DataLearnerAI也在其它模型上测试过类似的指令,包括GPT-Image-1、Qwen-Edit、Kontext等,细节表现都不理想。例如,GPT-Image-1经常会生成面部模糊或陌生的人脸,与Nano Banana相比差距明显。

Nano Banana模型很有可能是Google的Gemini模型的多模态版本

截止目前,并没有任何关于Nano Banana的官方信息。没有任何一家公司或品牌公开承认该模型与他们相关。但目前已有不少线索指向Google。

首先,最直接的线索是多位Google的AI相关人员在X平台上发布与banana相关的emoji或图片。例如Google的VP Josh Woodward发布了this is 🍌 !推文,随后Google NotebookLM负责人Simon转发并配图了一个“3+Bananas”的图片,耐人寻味。


据此,很多人猜测Google将在9月3日发布这个全新的模型(也有人认为可能是Gemini 3)。

尽管Google当前已经有图像生成大模型Imagen,版本甚至迭代到Imagen 4。但Imagen的核心仍是文本生成图片,编辑功能并非重点(AI Studio甚至未开放)。而Gemini目前虽然能处理多模态输入,但还不能生成图片。因此,如果Nano Banana确实与Google相关,它更可能是Gemini体系下的新尝试,而非Imagen的直接延续

如何使用Nano Banana

Nano Banana目前非常火爆,但公开可用的方式只有在LM Arena的Battle模式中进行图片生成和编辑。这意味着你只能多次参与LM Arena的大模型匿名竞技,并对生成图片进行投票,投票结束后才会显示是否使用了Nano Banana模型。


如上图所示,左侧就是Nano Banana的结果,只有在投票后才会揭示。需要注意的是,选择直接对话或非匿名对比模式时,并不能主动选择该模型。此外,目前有不少第三方网站(多为.ai或.io域名)冒充Nano Banana的入口,甚至开放充值通道,需警惕风险。

Nano Banana总结

无论Nano Banana最终归属哪家公司,多模态生成模型已经进入新的阶段

此前,人们普遍认为多模态大模型虽然能生成创意结果,但在真实世界理解、人物一致性等方面仍较弱,因此难以替代Adobe等专业工具。如今,随着多模态大模型的发展,这一观点正在被逐步打破。未来相关从业者可能逐渐转型为基于大模型结果的优化者,而行业的核心门槛也可能从技术实现转向创意构思

关于Nano Banana模型的信息以及未来的变化情况,可以关注DataLearnerAI的大模型信息卡:https://www.datalearner.com/ai-models/pretrained-models/nano-banana

欢迎大家关注DataLearner官方微信,接受最新的AI技术推送
相关博客