断层领先!Google发布图像生成和编辑大模型Gemini 2.5 Flash Image Preview,火爆网络的Nano Banana背后真正的模型发布!

标签:#Gemini2.5FlashImage##图像生成大模型##图像编辑大模型# 时间:2025/08/27 01:22:47 作者:小木

就在刚才,Google宣布发布最新的图像生成和编辑大模型Gemini 2.5 Flash Image Preview。该模型就是最近火爆网络的Nana Banana背后真正的模型。该模型在图片生成和编辑方面目前是断层领先,效果非常好。

Google发布图像生成和编辑大模型Gemini 2.5 Flash Image Preview

Gemini 2.5 Flash Image Preview是一次算法大升级

2025年4月底,Google发布了Gemini的图像编辑功能,但是彼时这个模型表现并不惊艳,主要是图像编辑功能很难保持图像原有对象的一致性。例如,给图像人物换一个发型,可能会导致人物的脸变了。

Google认为当编辑自己或熟悉人物的照片时,细微的瑕疵都至关重要。”相似却不够传神”的呈现总会令人感到失真。因此,Google训练了这个新模型,即Gemini 2.5 Flash Image Preview。最新升级的算法特别注重让亲友甚至宠物的照片始终保持本真特质,无论是尝试60年代的蜂窝发型,还是给吉娃娃穿上芭蕾舞裙,照片中的动物或者人物看起来都没有变化,是同一个。

Gemini 2.5 Flash Image Preview模型支持文本和图片作为输入,可以输出文本和图片,最高支持32K的输入和32K的输出。训练的知识截止到2024年6月份。

Gemini 2.5 Flash Image Preview能力断层领先

在Google正式宣布Gemini 2.5 Flash Image Preview之前,网络上有一个非常火爆的图像生成和编辑大模型,就是Nano Banana,该模型最早在LM Arena上出现,没有任何一家公司宣称拥有该模型,但是大家逐渐发现它的效果远超当前所有模型(关于Nano Banana可以参考此前DataLearnerAI的博客:神秘的图片生成和编辑大模型Nano Banana是什么?背后是Google吗?什么时候发布?能否颠覆Adobe)。

如今,Google公开宣布,该模型就是Gemini 2.5 Flash Image Preivew,且LM Arena的图像编辑排行榜评分也开始揭晓。目前Gemini 2.5 Flash Image Preview的得分1362,远超第二名的flux kontext max的1191分!按 Elo 公式估算,正面对战的期望胜率≈73%!此外,这个得分1362 ± 2,且投票数 252万+说明置信区间极窄,排名非常稳。

gemini 2.5 flash image的lmarena得分

从LM Arena数据来看,Gemini 2.5 Flash Image 在图像编辑任务中的整体表现最优,尤其在 综合偏好、角色生成、创意性和环境处理等维度上优势明显,说明其生成结果在质量、细节和用户接受度上均处于领先水平。唯一相对没有领先的是 风格化(Stylization) 维度,在该方面表现不如GPT Image和Qwen Image Edit。

Gemini 2.5 Flash Image Preview主要能力和玩法

这个Gemini 2.5 Flash Image Preview全新的图像编辑功能非常棒,我们可以更自由地发挥创意。以下是一些值得尝试的玩法:

角色或场景切换

上传人物或宠物的照片,系统会保持他们的外观一致,同时将其置入不同场景。无论是换上各种职业装扮、尝试不同年代的造型,还是单纯换个环境,都能在保留原本特征的基础上实现。


可以看到,人物几乎没有变化,但是风格差异很大。

照片融合

支持上传多张照片并进行合成,生成全新的画面。比如,将自己和宠物的照片融合在一起,就能得到一张你们共同出现在篮球场上的合影。


多轮编辑

用户可以反复调整生成的图片。比如先从一间空房间开始,逐步更换墙面颜色,再添加书架、家具或茶几。整个过程中,系统会在保持整体画面不变的前提下修改你指定的部分。

风格混搭

将一张图片的风格应用到另一张中的元素。比如,把花瓣的颜色和纹理移植到雨靴上,或者用蝴蝶翅膀的花纹来设计一条连衣裙。


可以看到,卧室里面的颜色已经变了

这些功能现已在 Gemini 应用中上线。不过需要注意的是,Google所有在生成或编辑的图片都会带有可见水印,以及不可见的 SynthID 数字水印,以明确标识其为 AI 生成内容

Gemini 2.5 Flash Image Preview目前可以免费使用

目前大家可以在Gemini官网或者AI Studio中使用,目前都可以免费。

在AI Studio中显示,该模型每分钟最多支持500次的请求,单天没有限制。说明这个模型还是不够大~

接口价格是文本输入0.3美元 /100 万tokens,输出是2.5 美元/100万tokens,图片输入是0.3美元 /100 万tokens,输出是30美元/100万tokens(每张图片固定按1290个 token 计费,最高分辨率为 1024 x 1024)。

关于Gemini 2.5 Flash Image Preview更多的信息参考DataLearnerAI模型信息卡:https://www.datalearner.com/ai-models/pretrained-models/gemini-2_5-flash-image-preview

欢迎大家关注DataLearner官方微信,接受最新的AI技术推送
相关博客