今天想跟你聊一个挺有意思的东西。你知道现在做前端开发,最烦的环节之一是什么吗?就是你代码写到一半,突然需要一张配图,然后你得切到浏览器,打开某个AI图片生成工具,生成完再下载,再拖到项目目录里,再改代码里的引用路径……这一套下来,思路全断了。
对对对,这个上下文切换的成本其实比大家想象的要高。你刚才说的这个痛点,其实正好就是今天要聊的这个扩展想解决的问题。它叫Nanobanana,是Gemini CLI的一个第三方扩展,装上之后你可以直接在命令行里生成图片,而且生成完还能让AI自动帮你集成到项目里。整个过程不用离开终端。
等一下,我先帮听众理清一个概念。Gemini CLI大家可能知道,就是Google的AI命令行工具。但这个Nanobanana是怎么接进去的?它不是Google官方的东西吧?
不是官方的,它是通过MCP协议接入的。MCP全称是Model Context Protocol,是Anthropic在2024年底开源的一个标准化协议。你可以把它理解成AI工具界的USB接口——以前每个AI应用要接外部工具,都得写一套定制代码,特别碎片化。有了MCP之后,只要你的工具遵循这个协议规范,任何支持MCP的AI应用都能直接调用。Nanobanana就是以MCP服务器的形式运行的,所以Gemini CLI能无缝识别它。
嗯,这个类比很好理解。那安装起来复杂吗?
其实特别简单。它是全局安装的,会装到你用户目录下的.gemini文件夹里的extensions目录。这意味着你装一次,在任何项目里启动Gemini CLI都能用。不像有些工具是项目级的,换个项目还得重新配。
这个设计思路有点像npm的全局安装和本地安装的区分。
没错,就是借鉴了这个思路。图片生成这种通用能力,确实适合做全局的。不过有一点要注意,装完之后你还需要配一个API Key。在项目的.env文件里加一行环境变量就行,如果你之前在Google AI Studio里已经创建过Gemini的API Key,可以直接复用。
说到这个,费用方面呢?毕竟生成图片肯定比纯文本对话要贵。
这个确实要提醒一下。每张图片大概15到25美分,具体取决于你设置的图片质量和分辨率。高分辨率的就贵一些,因为需要更多计算资源。相比之下,纯文本的API调用便宜得多,通常是每百万token几美元的量级。所以生成图片的时候还是要有点成本意识,别一口气生成几百张。
哈哈,那确实得悠着点。好,配置完了之后实际用起来是什么感觉?你能给大家描述一下具体的操作流程吗?
好,我拿一个实际场景来说。假设你在做一个美食网站,首页有一个组合卡片区域,需要三张食物搭配的图片。你在终端里启动Gemini CLI之后,输入斜杠命令就能看到Nanobanana新增的几个命令:/generate生成新图片,/edit编辑已有图片,/icon做图标,/diagram生成图表。
然后你就直接用/generate加上提示词?
对。比如你可以说「我需要三张食物组合图片——芝士配马麦酱、薯片配巧克力、草莓配胡椒」。输入之后,CLI会把你的提示词封装成MCP请求,发给Nanobanana服务器,服务器再调用Google的Imagen模型来生成。第一次用的时候会弹出权限确认,选「始终允许」就行。生成完的图片会保存在一个叫nanobanana-output的目录里。
生成质量怎么样?
说实话,比我预期的要好。画面清晰,食物搭配的呈现也很自然。你看现在的AI图片生成技术,从2022年Stable Diffusion和DALL·E 2开始,到现在Google的Imagen系列,质量已经接近专业摄影的水平了。不过最精彩的其实不是生成本身,而是后面的集成环节。
你是说让AI自动把图片放到项目里?
对!你只需要在对话里说一句「请把这三张图片添加到首页的组合卡片中」,Gemini就会自动帮你完成所有操作——把图片从输出目录移到项目的public文件夹,修改组件代码里的图片URL引用,还会确保每张图片跟对应的卡片正确匹配。传统流程里你得手动下载、重命名、移动文件、改代码,现在一句话搞定。
这确实体现了AI编码代理的核心价值——它不只是生成内容,还能理解你的项目结构和代码上下文。不过说到这儿,我其实想聊一个更大的话题。你觉得开发者在使用这类工具的时候,应该注意什么?
这个问题特别重要,我觉得有三点。第一,保持技能发展的主动性。有研究显示,频繁依赖AI代码补全的开发者,脱离工具后独立编码能力可能会下降。AI应该是加速器,不是拐杖。当AI给你一段代码的时候,花点时间理解它为什么这样写,别直接复制粘贴。
嗯,这个我深有体会。第二点呢?
第二点是「人在回路」,英文叫Human-in-the-Loop。AI会犯错,这是事实。尤其是代码修改这种事情,如果缺乏人工审查,可能引入很隐蔽的逻辑错误甚至安全漏洞。所以每次AI做了修改,你都应该看一眼,理解它的推理逻辑,在关键决策点做人工判断。
第三点呢?
第三点其实是前两点的总结——善用但不滥用。像Gemini CLI这样的工具,在重复性任务、素材生成、代码脚手架搭建这些场景下确实能大幅提效。但关键是找到人机协作的平衡点,你始终要对代码质量和开发过程保持掌控。
说得好。最后我想补充一点,MCP协议的意义其实比Nanobanana这个扩展本身更大。现在Cursor、Windsurf、Claude Desktop这些主流AI编码工具都已经支持MCP了,这意味着像Nanobanana这样的扩展,未来可能以很低的适配成本跑在多个不同平台上。一个跨平台的AI工具生态正在形成。
没错,这才是真正值得关注的趋势。工具会越来越多,能力会越来越强,但核心始终是那句话——工具为你所用,而不是你被工具所用。