断层领先！Google发布图像生成和编辑大模型Gemini 2.5 Flash Image Preview，火爆网络的Nano Banana背后真正的模型发布！

就在刚才，Google宣布发布最新的图像生成和编辑大模型Gemini 2.5 Flash Image Preview。该模型就是最近火爆网络的Nana Banana背后真正的模型。该模型在图片生成和编辑方面目前是断层领先，效果非常好。

Gemini 2.5 Flash Image Preview是一次算法大升级

2025年4月底，Google发布了Gemini的图像编辑功能，但是彼时这个模型表现并不惊艳，主要是图像编辑功能很难保持图像原有对象的一致性。例如，给图像人物换一个发型，可能会导致人物的脸变了。

Google认为当编辑自己或熟悉人物的照片时，细微的瑕疵都至关重要。"相似却不够传神"的呈现总会令人感到失真。因此，Google训练了这个新模型，即Gemini 2.5 Flash Image Preview。最新升级的算法特别注重让亲友甚至宠物的照片始终保持本真特质，无论是尝试60年代的蜂窝发型，还是给吉娃娃穿上芭蕾舞裙，照片中的动物或者人物看起来都没有变化，是同一个。

Gemini 2.5 Flash Image Preview模型支持文本和图片作为输入，可以输出文本和图片，最高支持32K的输入和32K的输出。训练的知识截止到2024年6月份。

Gemini 2.5 Flash Image Preview能力断层领先

在Google正式宣布Gemini 2.5 Flash Image Preview之前，网络上有一个非常火爆的图像生成和编辑大模型，就是Nano Banana，该模型最早在LM Arena上出现，没有任何一家公司宣称拥有该模型，但是大家逐渐发现它的效果远超当前所有模型（关于Nano Banana可以参考此前DataLearnerAI的博客：神秘的图片生成和编辑大模型Nano Banana是什么？背后是Google吗？什么时候发布？能否颠覆Adobe）。

如今，Google公开宣布，该模型就是Gemini 2.5 Flash Image Preivew，且LM Arena的图像编辑排行榜评分也开始揭晓。目前Gemini 2.5 Flash Image Preview的得分1362，远超第二名的flux kontext max的1191分！按 Elo 公式估算，正面对战的期望胜率≈73%！此外，这个得分1362 ± 2，且投票数 252万+说明置信区间极窄，排名非常稳。

从LM Arena数据来看，Gemini 2.5 Flash Image 在图像编辑任务中的整体表现最优，尤其在 综合偏好、角色生成、创意性和环境处理等维度上优势明显，说明其生成结果在质量、细节和用户接受度上均处于领先水平。唯一相对没有领先的是 风格化（Stylization） 维度，在该方面表现不如GPT Image和Qwen Image Edit。

Gemini 2.5 Flash Image Preview主要能力和玩法

这个Gemini 2.5 Flash Image Preview全新的图像编辑功能非常棒，我们可以更自由地发挥创意。以下是一些值得尝试的玩法：

角色或场景切换

上传人物或宠物的照片，系统会保持他们的外观一致，同时将其置入不同场景。无论是换上各种职业装扮、尝试不同年代的造型，还是单纯换个环境，都能在保留原本特征的基础上实现。

可以看到，人物几乎没有变化，但是风格差异很大。

照片融合

支持上传多张照片并进行合成，生成全新的画面。比如，将自己和宠物的照片融合在一起，就能得到一张你们共同出现在篮球场上的合影。

多轮编辑

用户可以反复调整生成的图片。比如先从一间空房间开始，逐步更换墙面颜色，再添加书架、家具或茶几。整个过程中，系统会在保持整体画面不变的前提下修改你指定的部分。

风格混搭

将一张图片的风格应用到另一张中的元素。比如，把花瓣的颜色和纹理移植到雨靴上，或者用蝴蝶翅膀的花纹来设计一条连衣裙。

可以看到，卧室里面的颜色已经变了

这些功能现已在 Gemini 应用中上线。不过需要注意的是，Google所有在生成或编辑的图片都会带有可见水印，以及不可见的 SynthID 数字水印，以明确标识其为 AI 生成内容。

Gemini 2.5 Flash Image Preview目前可以免费使用

目前大家可以在Gemini官网或者AI Studio中使用，目前都可以免费。

在AI Studio中显示，该模型每分钟最多支持500次的请求，单天没有限制。说明这个模型还是不够大~

接口价格是文本输入0.3美元 /100 万tokens，输出是2.5 美元/100万tokens，图片输入是0.3美元 /100 万tokens，输出是30美元/100万tokens（每张图片固定按1290个 token 计费，最高分辨率为 1024 x 1024）。

关于Gemini 2.5 Flash Image Preview更多的信息参考DataLearnerAI模型信息卡：https://www.datalearner.com/ai-models/pretrained-models/gemini-2_5-flash-image-preview