播客频道 | Gemini CLI 安装 Nano Banana 扩展生成图片教程

今天聊个挺有意思的东西——你在命令行里敲几个字，就能生成一张还不错的AI图片，然后它还能自动帮你塞到网页代码里。这事儿听着是不是有点科幻？哈哈，其实还真不是科幻，这就是 Gemini CLI 的一个扩展叫 Nano Banana 干的事儿。你看这个名字就很有意思，Nano Banana，纳米香蕉，起名的人挺有幽默感的。但它干的事情很正经——通过 MCP 协议给 Gemini CLI 加上了 AI 图像生成的能力。等等，你提到了 MCP 协议，这个我觉得得先给听众解释一下，因为它其实是理解这整套东西怎么工作的关键。对，MCP 全称是 Model Context Protocol，模型上下文协议，是 Anthropic 在 2024 年底开源的。你可以把它想象成一个 USB-C 接口——以前每个手机厂商用不同的充电口，现在统一了。MCP 就是给 AI 模型和外部工具之间定了一个统一的通信标准。Gemini CLI 是客户端，Nano Banana 这种扩展是服务器端，它们之间用标准化的 JSON-RPC 消息来对话。所以扩展开发者只要实现一次接口，所有支持 MCP 的 AI 客户端都能调用。这个类比很好理解。那具体到 Nano Banana 的安装，复杂吗？其实特别简单。在扩展市场里搜到它，复制安装命令，终端里一执行就完事了。这里有个细节值得说一下——它是全局安装的，不是绑定在某个项目里。装完之后它会注册到你用户主目录下的 Gemini 配置文件夹里，大概是 ~/.gemini/Extensions/ 这个路径。所以不管你在哪个项目目录下启动 Gemini CLI，都能用。嗯，这跟 VS Code 扩展那种每个工作区独立激活的方式不太一样。对，完全不同的思路。不过装完之后还有一步——配置 API 密钥。这个扩展生成图片是要花钱的，每张大概 15 到 25 美分，取决于图像质量。你需要在项目的 .env 文件里加一个叫 NANO_BANANA_GEMINI_API_KEY 的环境变量，把密钥填进去。如果你之前在 Google AI Studio 创建过密钥，甚至可以直接复用。 15 到 25 美分一张，换算成人民币大概一块到一块七左右。说贵不贵，说便宜……如果你一口气生成几十张可能也是一笔开销。是的，这个定价其实反映的是背后的 GPU 计算成本。现在主流的图像生成模型基本都是基于扩散模型架构，就是从一张纯噪声的图片开始，通过几十步的去噪过程逐步生成清晰图像。每一步都涉及大量的矩阵运算，所以推理阶段确实烧算力。不过对于快速原型设计来说，这个成本还是可以接受的。那装好之后具体怎么用呢？有哪些命令？装完之后在聊天框里输入斜杠就能看到新增的命令。最常用的几个：/generate 生成图像，/edit 编辑已有图像，/diagram 生成图表，/icon 做图标。还有一些其他的，覆盖面挺广的。来，给大家讲讲实战案例吧，我觉得这个部分最有说服力。好，原文里演示的是给一个网页的食物组合卡片生成配图。操作流程是这样的：先打开首页文件，选中组合卡片的相关代码让它自动加到上下文里，然后用 /generate 命令，直接用自然语言描述你要什么——比如说「我需要三张图片，一张是奶酪和马麦酱，一张是薯片和巧克力，一张是草莓和胡椒」。回车之后 Gemini CLI 会请求使用 MCP 工具的权限，你选择允许，然后它就开始生成了。然后生成完的图片还得手动搬到项目里、改代码引用路径什么的吧？这就是最爽的地方——不用！你只要跟它说一句「你能把这三张新图片添加到主页的组合卡片上吗」，Gemini CLI 会自动把图片移到项目的公共文件夹里，在代码里加上正确的图片 URL 引用，还会更新组件代码。刷新浏览器一看，三张图片已经完美展示在页面上了。从生成到上线，几乎零手动编码。这确实很丝滑。但我注意到原文最后花了不少篇幅在讲「不要过度依赖 AI」，你觉得这个提醒有必要吗？非常有必要，而且我觉得这可能是整篇文章最重要的部分。GitHub 2024 年的调查数据很说明问题——用 Copilot 的开发者完成任务速度提升了大约 55%，但代码审查中发现的逻辑错误率也上升了约 20%。斯坦福的研究还发现，过度依赖 AI 代码补全的初级开发者，在独立编程测试中表现明显更差。速度快了一半多，但错误也多了两成，这个数据组合还挺扎心的。对，所以现在业界比较推崇的是一种叫 AI-in-the-loop 的协作模式——AI 在环中，但不是 AI 主导。开发者负责架构设计、需求分析和最终审查，AI 负责代码生成和重复性工作。你可以把它想成一个结对编程的搭档，它打字很快，但最后代码好不好使、架构合不合理，拍板的还得是你。嗯，这个比喻特别好。其实不光是编程，用 AI 生成图片也是一样的道理——它生成的图片到底适不适合你的产品调性，色彩搭配对不对，这些判断还是得靠人。没错。工具越强大，使用者的判断力就越重要。这话听着像老生常谈，但放在 AI 这个语境下，真的是每天都在被验证。说得好。那我们简单总结一下今天聊的——Nano Banana 通过 MCP 协议给 Gemini CLI 加上了图像生成能力，全局安装，配个密钥就能用，一张图一两块钱人民币。最厉害的是它能跟代码生成打通，实现从生图到集成的全流程自动化。但最后那句话我觉得值得所有开发者记住：AI 是加速器，不是替代品。你得理解它生成的每一段代码，关键节点上该审查就审查。总结得很到位。其实我觉得这也是技术发展的一个有趣阶段——工具在变强，但对人的要求反而没有降低，只是要求的东西变了。以前要求你打字快、记语法，现在要求你有判断力、有架构思维。某种意义上，门槛其实更高了。这个观察很深刻，门槛不是消失了，是换了个位置。好，今天就聊到这儿吧。

Gemini CLI 安装 Nano Banana 扩展生成图片教程

更多播客

AI热点风向标·06月07日午间版

AI热点风向标·06月07日早间版

每日AI新鲜事·06月07日早间播报