今天聊个挺有意思的东西——你在命令行里敲几个字,就能生成一张还不错的AI图片,然后它还能自动帮你塞到网页代码里。这事儿听着是不是有点科幻?
哈哈,其实还真不是科幻,这就是 Gemini CLI 的一个扩展叫 Nano Banana 干的事儿。你看这个名字就很有意思,Nano Banana,纳米香蕉,起名的人挺有幽默感的。但它干的事情很正经——通过 MCP 协议给 Gemini CLI 加上了 AI 图像生成的能力。
等等,你提到了 MCP 协议,这个我觉得得先给听众解释一下,因为它其实是理解这整套东西怎么工作的关键。
对,MCP 全称是 Model Context Protocol,模型上下文协议,是 Anthropic 在 2024 年底开源的。你可以把它想象成一个 USB-C 接口——以前每个手机厂商用不同的充电口,现在统一了。MCP 就是给 AI 模型和外部工具之间定了一个统一的通信标准。Gemini CLI 是客户端,Nano Banana 这种扩展是服务器端,它们之间用标准化的 JSON-RPC 消息来对话。所以扩展开发者只要实现一次接口,所有支持 MCP 的 AI 客户端都能调用。
这个类比很好理解。那具体到 Nano Banana 的安装,复杂吗?
其实特别简单。在扩展市场里搜到它,复制安装命令,终端里一执行就完事了。这里有个细节值得说一下——它是全局安装的,不是绑定在某个项目里。装完之后它会注册到你用户主目录下的 Gemini 配置文件夹里,大概是 ~/.gemini/Extensions/ 这个路径。所以不管你在哪个项目目录下启动 Gemini CLI,都能用。
嗯,这跟 VS Code 扩展那种每个工作区独立激活的方式不太一样。
对,完全不同的思路。不过装完之后还有一步——配置 API 密钥。这个扩展生成图片是要花钱的,每张大概 15 到 25 美分,取决于图像质量。你需要在项目的 .env 文件里加一个叫 NANO_BANANA_GEMINI_API_KEY 的环境变量,把密钥填进去。如果你之前在 Google AI Studio 创建过密钥,甚至可以直接复用。
15 到 25 美分一张,换算成人民币大概一块到一块七左右。说贵不贵,说便宜……如果你一口气生成几十张可能也是一笔开销。
是的,这个定价其实反映的是背后的 GPU 计算成本。现在主流的图像生成模型基本都是基于扩散模型架构,就是从一张纯噪声的图片开始,通过几十步的去噪过程逐步生成清晰图像。每一步都涉及大量的矩阵运算,所以推理阶段确实烧算力。不过对于快速原型设计来说,这个成本还是可以接受的。
那装好之后具体怎么用呢?有哪些命令?
装完之后在聊天框里输入斜杠就能看到新增的命令。最常用的几个:/generate 生成图像,/edit 编辑已有图像,/diagram 生成图表,/icon 做图标。还有一些其他的,覆盖面挺广的。
来,给大家讲讲实战案例吧,我觉得这个部分最有说服力。
好,原文里演示的是给一个网页的食物组合卡片生成配图。操作流程是这样的:先打开首页文件,选中组合卡片的相关代码让它自动加到上下文里,然后用 /generate 命令,直接用自然语言描述你要什么——比如说「我需要三张图片,一张是奶酪和马麦酱,一张是薯片和巧克力,一张是草莓和胡椒」。回车之后 Gemini CLI 会请求使用 MCP 工具的权限,你选择允许,然后它就开始生成了。
然后生成完的图片还得手动搬到项目里、改代码引用路径什么的吧?
这就是最爽的地方——不用!你只要跟它说一句「你能把这三张新图片添加到主页的组合卡片上吗」,Gemini CLI 会自动把图片移到项目的公共文件夹里,在代码里加上正确的图片 URL 引用,还会更新组件代码。刷新浏览器一看,三张图片已经完美展示在页面上了。从生成到上线,几乎零手动编码。
这确实很丝滑。但我注意到原文最后花了不少篇幅在讲「不要过度依赖 AI」,你觉得这个提醒有必要吗?
非常有必要,而且我觉得这可能是整篇文章最重要的部分。GitHub 2024 年的调查数据很说明问题——用 Copilot 的开发者完成任务速度提升了大约 55%,但代码审查中发现的逻辑错误率也上升了约 20%。斯坦福的研究还发现,过度依赖 AI 代码补全的初级开发者,在独立编程测试中表现明显更差。
速度快了一半多,但错误也多了两成,这个数据组合还挺扎心的。
对,所以现在业界比较推崇的是一种叫 AI-in-the-loop 的协作模式——AI 在环中,但不是 AI 主导。开发者负责架构设计、需求分析和最终审查,AI 负责代码生成和重复性工作。你可以把它想成一个结对编程的搭档,它打字很快,但最后代码好不好使、架构合不合理,拍板的还得是你。
嗯,这个比喻特别好。其实不光是编程,用 AI 生成图片也是一样的道理——它生成的图片到底适不适合你的产品调性,色彩搭配对不对,这些判断还是得靠人。
没错。工具越强大,使用者的判断力就越重要。这话听着像老生常谈,但放在 AI 这个语境下,真的是每天都在被验证。
说得好。那我们简单总结一下今天聊的——Nano Banana 通过 MCP 协议给 Gemini CLI 加上了图像生成能力,全局安装,配个密钥就能用,一张图一两块钱人民币。最厉害的是它能跟代码生成打通,实现从生图到集成的全流程自动化。但最后那句话我觉得值得所有开发者记住:AI 是加速器,不是替代品。你得理解它生成的每一段代码,关键节点上该审查就审查。
总结得很到位。其实我觉得这也是技术发展的一个有趣阶段——工具在变强,但对人的要求反而没有降低,只是要求的东西变了。以前要求你打字快、记语法,现在要求你有判断力、有架构思维。某种意义上,门槛其实更高了。
这个观察很深刻,门槛不是消失了,是换了个位置。好,今天就聊到这儿吧。