Gemini CLI 图片生成教程:Nanobanana 扩展安装配置与实战指南

Gemini CLI的Nanobanana扩展实现命令行内AI图片生成与项目集成
本文介绍了Gemini CLI的第三方扩展Nanobanana,它通过MCP协议为命令行增加图片生成能力。文章详细讲解了全局安装配置流程、API Key设置,并演示了为美食网站生成组合卡片图片并自动集成到项目中的完整工作流。最后提出AI编码工具的使用建议:保持技能主动性、人在回路审查、善用但不滥用。
在 Gemini CLI 系列教程的第十期中,我们来探索一个相当实用的扩展——Nanobanana。它能让你直接在命令行中调用模型生成图片,并无缝集成到项目开发流程中。本文将从安装配置讲到实际使用,带你走完整个流程。
Nanobanana 扩展是什么?
Nanobanana 是 Gemini CLI 的一个第三方扩展,通过 MCP(Model Context Protocol)服务器的方式,为 CLI 增加了图片生成能力。安装之后,你可以在 Gemini CLI 的对话中使用一系列新命令来生成图片、编辑图片、制作图标、生成图表等。
MCP 是由 Anthropic 于 2024 年底开源发布的一项标准化协议,旨在解决 AI 模型与外部工具、数据源之间的连接问题。在 MCP 出现之前,每个 AI 应用要接入外部工具都需要编写定制化的集成代码,导致生态碎片化严重。MCP 采用客户端-服务器架构:AI 应用作为客户端发起请求,而各种工具(如图片生成、数据库查询、文件操作等)作为 MCP 服务器提供能力。这种设计类似于 USB 接口的标准化——只要遵循协议规范,任何工具都可以被任何支持 MCP 的 AI 应用调用。Nanobanana 正是以 MCP 服务器的形式运行,这也是为什么它能被 Gemini CLI 无缝识别和调用的原因。
这个扩展的核心价值在于:你不需要离开终端和代码编辑器,就能完成从图片生成到项目集成的全部工作流程。对于前端开发者来说,这意味着在构建页面时可以即时生成所需的视觉素材。

需要注意的是,使用 Nanobanana 扩展需要 API Key,并且每张图片的生成费用大约在 15 到 25 美分之间,具体取决于图片质量设置。AI 图片生成技术在近几年经历了爆发式发展——从 2022 年 Stable Diffusion 和 DALL·E 2 的发布,到 2023 年 Midjourney V5 和 DALL·E 3 的迭代,再到 Google Imagen 系列的持续升级,生成质量已从早期的「看起来像 AI 画的」进化到接近专业摄影和设计的水平。这些模型大多基于扩散模型(Diffusion Model)架构,通过学习从噪声中逐步还原图像的过程来生成新图片。将这种能力集成到开发者的命令行工具中,代表了 AI 工具从独立应用向嵌入式工作流组件转变的趋势。
Nanobanana 安装与配置流程
全局安装扩展
安装 Nanobanana 非常简单。在扩展页面找到对应的安装命令,然后在终端中执行即可。有意思的是,这个扩展是全局安装的——它会被添加到用户目录下的 .gemini 文件夹中的 extensions 目录里,而不是绑定到某个特定项目。
Gemini CLI 的扩展系统分为项目级和全局级两种。项目级扩展配置存储在项目根目录的 .gemini 文件夹中,仅对当前项目生效;全局扩展则安装在用户主目录的 ~/.gemini/extensions 路径下,对所有项目生效。这种设计借鉴了 npm 的全局安装与本地安装的区分思路。全局扩展适合那些与具体项目无关、属于通用工具性质的能力(如图片生成),而项目级扩展更适合与特定技术栈或业务逻辑绑定的工具。
也就是说,一旦安装完成,你在任何项目中启动 Gemini CLI 都可以使用 Nanobanana 的功能。
配置 API Key
Nanobanana 需要一个 Google AI 的 API Key 来调用图片生成模型。如果你之前已经为 Gemini CLI 创建过 API Key(比如在 Google AI Studio 中),可以直接复用同一个 Key。
Google AI Studio 是 Google 提供的 AI 模型开发和测试平台,开发者可以在其中创建 API Key 来调用 Gemini 系列模型。API Key 本质上是一个身份凭证,Google 通过它来追踪调用量并进行计费。Gemini 的图片生成能力基于 Imagen 系列模型,该模型在 2024-2025 年间经历了多次迭代升级。每张图片 15-25 美分的费用主要取决于输出分辨率和质量参数——高分辨率、高质量的图片需要更多的计算资源,因此费用更高。相比之下,纯文本的 Gemini API 调用费用要低得多,通常在每百万 token 几美元的量级。
配置方式是在项目的 .env 文件中添加环境变量:
NANOBANANA_GEMINI_KEY=你的API密钥
Nanobanana 会自动读取这个环境变量来进行身份验证。切记不要将 API Key 公开分享,否则他人可能会使用你的配额产生费用。

实战演示:用 Gemini CLI 生成组合卡片图片
调用图片生成命令
配置完成后,在终端中启动一个新的 Gemini CLI 实例。输入 / 斜杠命令,可以看到所有新增的 Nanobanana 命令:
/diagram— 生成图表/edit— 编辑已有图片/generate— 生成新图片/icon— 制作图标
这些斜杠命令的设计遵循了现代 CLI 工具的交互范式。在 Gemini CLI 中,斜杠命令充当了用户意图与底层 MCP 工具调用之间的桥梁——当你输入 /generate 时,CLI 实际上会将你的提示词封装成一个标准的 MCP 请求,发送给 Nanobanana 服务器,服务器再调用 Google 的 Imagen 模型完成图片生成,最后将结果返回并保存到本地。
在这个演示中,目标是为一个美食网站的首页「组合卡片」(Combo Cards)生成三张食物搭配图片。操作步骤如下:
- 打开首页文件,选中组合卡片的代码区域,让 Gemini 自动获取上下文
- 使用
/generate命令并输入提示词 - 提示词内容:「我需要三张食物组合图片——一张芝士配马麦酱、一张薯片配巧克力、一张草莓配胡椒」
首次使用 MCP 工具时,CLI 会请求权限确认。选择「始终允许」可以避免后续重复确认。这个权限机制是 MCP 协议安全设计的一部分,确保用户对 AI 调用外部工具的行为始终保持知情和控制。

生成结果与项目集成
生成完成后,三张图片被保存在 nanobanana-output 目录中。预览效果相当不错:
- 马麦酱配芝士 — 画面清晰,食物搭配呈现自然
- 巧克力配薯片 — 视觉效果良好(顺便说一句,巧克力配盐醋薯片确实值得一试)
- 草莓配胡椒 — 生成质量同样令人满意
接下来是最精彩的部分——直接让 Gemini 将这些图片集成到项目中。只需在对话中说:「请将这三张新图片添加到首页的组合卡片中」,Gemini 就会自动完成以下操作:
- 将图片从输出目录移动到项目的
public文件夹 - 修改首页组件代码,更新图片 URL 引用
- 确保每张图片与对应的卡片正确匹配
这个自动化集成过程体现了 AI 编码代理(AI Coding Agent)的核心优势——它不仅能生成内容,还能理解项目结构和代码上下文,自主完成文件操作和代码修改。传统工作流中,开发者需要手动下载图片、重命名、移动到正确目录、然后修改代码中的引用路径,而 Gemini CLI 将这些步骤压缩成了一句自然语言指令。

在浏览器中预览,三张 AI 生成的图片已经完美嵌入到组合卡片中,整个过程从生成到集成一气呵成。
AI 编码工具的使用建议
作为这个系列教程的收尾,有几点关于 AI 编码工具使用的建议值得分享:
保持技能发展的主动性
过度依赖 AI 会阻碍你在各个领域的技能成长——无论是编码、写作还是设计。AI 应该是加速器而非替代品。理解底层原理、具备独立解决问题的能力,仍然是开发者的核心竞争力。
这一点在行业中已经引发了广泛讨论。多项研究和调查显示,频繁使用 AI 代码补全工具的开发者,在脱离工具后的独立编码能力可能出现下降。这并不意味着应该拒绝 AI 工具,而是建议在使用过程中保持「刻意练习」的意识——当 AI 给出一段代码时,花时间理解它为什么这样写,而不是直接复制粘贴。
AI 不是万能的
AI 并非银弹,它无法解决所有问题,而且会犯错。在开发的每个阶段都应该保持人在回路中(stay in the loop),主动审查 AI 的输出,在需要时引导 AI 深入细节,而不是盲目接受所有建议。
「人在回路」(Human-in-the-Loop,简称 HITL)是 AI 系统设计中的一个核心理念,指在 AI 的决策或输出过程中保留人类审查和干预的环节。这个概念最初来源于控制论和自动化领域,在 AI 编码工具的语境下,它意味着开发者不应将 AI 视为黑盒,而应主动审查每一次代码修改、理解 AI 的推理逻辑、在关键决策点进行人工判断。研究表明,AI 辅助编码在提升速度的同时,如果缺乏人工审查,可能引入难以察觉的逻辑错误或安全漏洞。保持 HITL 实践的开发者,往往能在效率提升和代码质量之间取得更好的平衡。
善用但不滥用
Gemini CLI 这样的工具在正确使用时能显著提升开发效率,尤其是在重复性任务、素材生成、代码脚手架搭建等场景。关键是找到人机协作的最佳平衡点。
总结
Nanobanana 扩展展示了 Gemini CLI 生态系统的可扩展性。通过 MCP 协议,第三方开发者可以为 CLI 添加各种新能力,图片生成只是其中之一。随着更多扩展的出现,Gemini CLI 有潜力成为一个功能丰富的 AI 开发助手平台。
从更宏观的视角来看,MCP 协议的普及正在推动 AI 开发工具生态的标准化进程。目前,除了 Gemini CLI 之外,Cursor、Windsurf、Claude Desktop 等主流 AI 编码工具也已支持 MCP 协议。这意味着像 Nanobanana 这样的扩展,未来有可能以最小的适配成本运行在多个不同的 AI 平台上,形成一个跨平台的 AI 工具生态。
对于想要在工作流中引入 AI 编码代理的开发者来说,Gemini CLI 是一个值得尝试的选择——前提是你始终保持对代码质量和开发过程的掌控。
相关推荐
教程攻略Cursor+Codex双IDE协同:开源项目二开实战方法论
基于实战经验总结的开源项目二次开发完整方法论,详解Cursor+Codex双IDE协同工作流,涵盖二开七环节、MVP验证、AI读源码技巧,帮助开发者三天跑通项目、两周完成业务集成。
教程攻略Cursor多Agent实战:50分钟搭建Next.js全栈博客
使用Cursor IDE多Agent协作模式,50分钟内从零搭建全栈博客。涵盖Next.js、Clerk认证、Supabase数据库集成,详解4个AI Agent分阶段开发流程与关键避坑经验。
教程攻略从零搭建AI软件工厂:Cursor工程师的多Agent协作实战经验
Cursor工程师Eric分享AI软件工厂构建实战:从自动化六层级、护栏设计、并行Agent管理到规模化扩展,详解如何用多Agent协作实现7×24小时高效软件开发。