播客频道 | Gemini CLI 图片生成教程：Nanobanana 扩展安装配置与实战指南

今天想跟你聊一个挺有意思的东西。你知道现在做前端开发，最烦的环节之一是什么吗？就是你代码写到一半，突然需要一张配图，然后你得切到浏览器，打开某个AI图片生成工具，生成完再下载，再拖到项目目录里，再改代码里的引用路径……这一套下来，思路全断了。对对对，这个上下文切换的成本其实比大家想象的要高。你刚才说的这个痛点，其实正好就是今天要聊的这个扩展想解决的问题。它叫Nanobanana，是Gemini CLI的一个第三方扩展，装上之后你可以直接在命令行里生成图片，而且生成完还能让AI自动帮你集成到项目里。整个过程不用离开终端。等一下，我先帮听众理清一个概念。Gemini CLI大家可能知道，就是Google的AI命令行工具。但这个Nanobanana是怎么接进去的？它不是Google官方的东西吧？不是官方的，它是通过MCP协议接入的。MCP全称是Model Context Protocol，是Anthropic在2024年底开源的一个标准化协议。你可以把它理解成AI工具界的USB接口——以前每个AI应用要接外部工具，都得写一套定制代码，特别碎片化。有了MCP之后，只要你的工具遵循这个协议规范，任何支持MCP的AI应用都能直接调用。Nanobanana就是以MCP服务器的形式运行的，所以Gemini CLI能无缝识别它。嗯，这个类比很好理解。那安装起来复杂吗？其实特别简单。它是全局安装的，会装到你用户目录下的.gemini文件夹里的extensions目录。这意味着你装一次，在任何项目里启动Gemini CLI都能用。不像有些工具是项目级的，换个项目还得重新配。这个设计思路有点像npm的全局安装和本地安装的区分。没错，就是借鉴了这个思路。图片生成这种通用能力，确实适合做全局的。不过有一点要注意，装完之后你还需要配一个API Key。在项目的.env文件里加一行环境变量就行，如果你之前在Google AI Studio里已经创建过Gemini的API Key，可以直接复用。说到这个，费用方面呢？毕竟生成图片肯定比纯文本对话要贵。这个确实要提醒一下。每张图片大概15到25美分，具体取决于你设置的图片质量和分辨率。高分辨率的就贵一些，因为需要更多计算资源。相比之下，纯文本的API调用便宜得多，通常是每百万token几美元的量级。所以生成图片的时候还是要有点成本意识，别一口气生成几百张。哈哈，那确实得悠着点。好，配置完了之后实际用起来是什么感觉？你能给大家描述一下具体的操作流程吗？好，我拿一个实际场景来说。假设你在做一个美食网站，首页有一个组合卡片区域，需要三张食物搭配的图片。你在终端里启动Gemini CLI之后，输入斜杠命令就能看到Nanobanana新增的几个命令：/generate生成新图片，/edit编辑已有图片，/icon做图标，/diagram生成图表。然后你就直接用/generate加上提示词？对。比如你可以说「我需要三张食物组合图片——芝士配马麦酱、薯片配巧克力、草莓配胡椒」。输入之后，CLI会把你的提示词封装成MCP请求，发给Nanobanana服务器，服务器再调用Google的Imagen模型来生成。第一次用的时候会弹出权限确认，选「始终允许」就行。生成完的图片会保存在一个叫nanobanana-output的目录里。生成质量怎么样？说实话，比我预期的要好。画面清晰，食物搭配的呈现也很自然。你看现在的AI图片生成技术，从2022年Stable Diffusion和DALL·E 2开始，到现在Google的Imagen系列，质量已经接近专业摄影的水平了。不过最精彩的其实不是生成本身，而是后面的集成环节。你是说让AI自动把图片放到项目里？对！你只需要在对话里说一句「请把这三张图片添加到首页的组合卡片中」，Gemini就会自动帮你完成所有操作——把图片从输出目录移到项目的public文件夹，修改组件代码里的图片URL引用，还会确保每张图片跟对应的卡片正确匹配。传统流程里你得手动下载、重命名、移动文件、改代码，现在一句话搞定。这确实体现了AI编码代理的核心价值——它不只是生成内容，还能理解你的项目结构和代码上下文。不过说到这儿，我其实想聊一个更大的话题。你觉得开发者在使用这类工具的时候，应该注意什么？这个问题特别重要，我觉得有三点。第一，保持技能发展的主动性。有研究显示，频繁依赖AI代码补全的开发者，脱离工具后独立编码能力可能会下降。AI应该是加速器，不是拐杖。当AI给你一段代码的时候，花点时间理解它为什么这样写，别直接复制粘贴。嗯，这个我深有体会。第二点呢？第二点是「人在回路」，英文叫Human-in-the-Loop。AI会犯错，这是事实。尤其是代码修改这种事情，如果缺乏人工审查，可能引入很隐蔽的逻辑错误甚至安全漏洞。所以每次AI做了修改，你都应该看一眼，理解它的推理逻辑，在关键决策点做人工判断。第三点呢？第三点其实是前两点的总结——善用但不滥用。像Gemini CLI这样的工具，在重复性任务、素材生成、代码脚手架搭建这些场景下确实能大幅提效。但关键是找到人机协作的平衡点，你始终要对代码质量和开发过程保持掌控。说得好。最后我想补充一点，MCP协议的意义其实比Nanobanana这个扩展本身更大。现在Cursor、Windsurf、Claude Desktop这些主流AI编码工具都已经支持MCP了，这意味着像Nanobanana这样的扩展，未来可能以很低的适配成本跑在多个不同平台上。一个跨平台的AI工具生态正在形成。没错，这才是真正值得关注的趋势。工具会越来越多，能力会越来越强，但核心始终是那句话——工具为你所用，而不是你被工具所用。

Gemini CLI 图片生成教程：Nanobanana 扩展安装配置与实战指南

更多播客

AI热点风向标·06月07日午间版

AI热点风向标·06月07日早间版

每日AI新鲜事·06月07日早间播报