最近刷GitHub的时候看到一个项目,名字挺有意思,叫NanoBananaEditor——纳米香蕉编辑器。名字虽然搞怪,但功能一点不含糊,上线没多久就拿了快700个Star。今天请来了我们的老朋友来聊聊这个项目,因为它背后其实反映了AI图像工具的一个很重要的趋势。
对,这个项目我也关注到了。其实名字无所谓嘛,关键是它做的事情确实戳中了一个痛点。你想啊,现在AI图像工具特别多,但大部分要么只能生成,要么只能编辑,你得在好几个工具之间来回切换。NanoBananaEditor的思路是把生成、编辑、版本管理全塞到一个界面里,做成一个闭环。
嗯,这个定位确实精准。那先说说它的技术底座吧,它用的是Google的Gemini 2.5 Flash来做图像生成引擎,这个选择你怎么看?
这个选择其实挺聪明的。Gemini 2.5 Flash是Google专门优化过推理速度的版本,生成质量不差但延迟低很多。更关键的是,它是原生多模态架构——什么意思呢?就是这个模型在训练的时候就同时学了文本和图像,不是把一个语言模型和一个图像模型硬拼在一起的。这带来一个很大的好处,就是它理解图文关系的能力特别强。
这跟比如说Stable Diffusion那种方案有什么本质区别?
你可以这样理解:Stable Diffusion是你自己在本地跑的,需要一块好显卡,模型权重动辄好几个G,还得配CUDA环境。而Gemini走的是API路线,计算全在云端完成,用户这边几乎零硬件要求。所以NanoBananaEditor才能做成一个轻量级的前端应用,用TypeScript写就行了,不需要搞什么GPU服务器。你只要有个API Key就能用。
说到功能,它有三个核心能力我觉得值得展开聊。第一个是参考图像驱动生成,这个对创作者来说应该特别实用。
非常实用。你想想,纯靠文字描述来控制AI生成图片,其实是很痛苦的。比如你想要一个特定的色彩搭配,或者某种纹理质感,用语言描述半天可能AI还是理解不了你要什么。但如果你直接丢一张参考图进去,告诉它'我要这种感觉',那精确度就完全不一样了。
对,语言在描述视觉细节的时候确实有天然的模糊性。你说'温暖的橙色调',每个人脑子里想的可能都不一样。
没错。而且因为Gemini本身就是原生多模态的,图像可以直接作为输入token的一部分被处理,不需要额外加什么适配器模块。这比早期那些需要IP-Adapter或者ControlNet来做参考图引导的方案要优雅得多。
第二个功能是蒙版局部重绘,也就是inpainting。这个我觉得是把它从一个生成工具提升到编辑工具的关键。
你说得对。局部重绘的意思就是,你不用因为图片某个小地方不满意就重新生成整张图。你只需要拿个画笔把不满意的区域涂上蒙版,然后AI就只改那一块。而且现在的技术已经能做到边缘融合非常自然,重绘区域和保留区域之间几乎看不出拼接痕迹。
这个技术的难点在哪?
难点就在你说的边缘融合。模型在重新生成蒙版区域的时候,必须参考周围没被遮挡的像素,保证色彩、光照、透视这些都能对得上。打个比方,就像你在一幅油画上挖了个洞,然后请另一个画家来补上,他得完美匹配原画家的笔触和风格,这是很考验功力的。不过现在大规模训练的多模态模型在这方面已经做得相当好了。
第三个功能是版本历史回溯。这个听起来简单,但我觉得很多同类工具都忽略了这一点。
其实这个功能的设计思路就是借鉴了程序员用的Git。你每做一次编辑,系统就自动保存一个版本,相当于一次'提交'。你可以随时回到之前任何一个版本去对比、去选择。AI创作本身就是一个探索性的过程,你经常会发现改了三四轮之后,反而觉得第二轮的效果最好。没有版本管理的话,那就只能从头再来了。
这确实是个真实的痛点。我自己用Midjourney的时候就经常遇到这种情况,改着改着就回不去了。
对嘛,所以看似简单的功能,实际在工作流里是极其关键的。
聊到这里我想拉远一点看。你觉得NanoBananaEditor这类项目反映了AI图像工具领域什么样的趋势?
其实是一个很清晰的趋势——从单点工具走向集成化平台。你回想一下,2022年Stable Diffusion刚出来的时候,大家兴奋的是'哇,AI居然能生成图片'。但现在底层模型能力已经成熟了,用户的需求就变成了'我怎么更高效地用它来干活'。商业领域Adobe Firefly、Canva AI已经在做这件事了。开源社区里ComfyUI也在做,但它那个节点式工作流学习曲线太陡了,普通用户很难上手。
所以NanoBananaEditor的价值就在于它在开源社区里找到了一个平衡点——功能够用,但门槛够低。
完全正确。内容创作者可以拿它来快速出社交媒体配图,设计师可以做概念设计的快速原型,开发者还可以把它当成学习Gemini图像API的参考项目。受众面其实挺广的。
最后一个问题,你觉得这类项目未来可能往什么方向演进?
我觉得有几个方向值得期待。一个是支持更多模型后端,比如接入Stable Diffusion、Flux这些,不要把鸡蛋都放在Gemini一个篮子里。另一个是加入批量处理和自动化工作流的能力,毕竟真正的生产场景经常需要一次处理大量图片。还有像超分辨率、背景移除这些高级编辑功能,如果能集成进来,那就真的是一站式工作站了。
嗯,听起来想象空间还挺大的。总结一下的话,NanoBananaEditor这个项目虽然还年轻,但它代表的方向——把AI图像的生成、编辑、版本管理整合到一个轻量级的开源应用里——确实是很多创作者和开发者真正需要的东西。感兴趣的朋友可以去GitHub上搜一下,自己体验体验。