Claude Code接入Nano Banana 2：全自动批量AI出图实战教程

为什么要把图像生成模型接入Claude Code

用过Nano Banana Pro或Nano Banana 2这类图像生成模型的人，多半经历过这样的流程：打开网页、输入提示词、等待生成、下载图片、再切回工作界面……整套操作割裂且低效。一旦需要批量生成多张风格统一的图片，手动操作的时间成本就会急剧上升。

Nano Banana Pro 和 Nano Banana 2 是基于扩散模型（Diffusion Model）架构的图像生成系统，属于文本到图像（Text-to-Image）生成工具的范畴。扩散模型的工作原理是先向图像添加高斯噪声直至完全变为随机噪声，然后训练神经网络学习逆向去噪过程，从而能够从纯噪声中逐步"还原"出与文本描述匹配的图像。这类模型与 Stable Diffusion、DALL·E、Midjourney 等属于同一技术谱系，但各自在训练数据、模型架构和推理优化上有所差异。Nano Banana 系列的特点在于提供了标准化的 API 接口，便于程序化调用和集成到自动化工作流中。

这篇文章介绍的方案直接解决了这个问题——将Nano Banana 2通过API接入Claude Code，让AI代理帮你完成从提示词生成到图片输出的全流程。

Claude Code 是 Anthropic 推出的一款命令行 AI 编程代理工具，它允许开发者在终端中通过自然语言与 Claude 模型交互，完成代码编写、文件操作、项目管理等任务。与传统的聊天式 AI 助手不同，Claude Code 具备"代理"（Agent）能力——它可以自主规划多步骤任务、调用外部工具和 API、读写本地文件系统，并根据执行结果动态调整后续操作。这种代理范式是 2024-2025 年 AI 工具链演进的核心方向之一，其本质是将大语言模型从"问答机器"升级为"任务执行者"。

接入之后，你可以做到：

同时启动20个生成任务，无需逐个排队等待
不用自己编写复杂的图像提示词，Claude会自动生成结构化的JSON提示
所有操作在一个终端界面中完成，告别多窗口来回切换
生成的图片可以直接嵌入网站、演示文稿等项目

其中"同时启动 20 个生成任务"涉及并发编程和异步任务调度的概念。传统的串行执行方式下，每张图片需要等待前一张完成后才能开始生成，而并发执行允许多个 API 请求同时发出并行处理。在 Python 中，这通常通过 asyncio 异步框架或 concurrent.futures 线程池来实现；在 Node.js 环境中则利用其天然的事件循环和 Promise.all 机制。需要注意的是，API 服务通常设有速率限制（Rate Limiting），即单位时间内允许的最大请求数，超出限制会返回 429 错误。因此实际的批量生成需要在并发度和速率限制之间找到平衡，通常通过指数退避（Exponential Backoff）策略来处理限流响应。

Claude Code工作界面

前置准备：获取Google AI Studio API密钥

整个工作流通过Google AI Studio的API调用Gemini模型来驱动Nano Banana的图像生成能力。

Google AI Studio 是 Google 面向开发者提供的 AI 模型访问平台，开发者可以通过它获取 API 密钥来调用 Google 的 Gemini 系列大模型。Gemini 是 Google DeepMind 开发的多模态大语言模型，其核心特点是原生支持文本、图像、音频、视频等多种模态的输入和输出。文中提到的 Gemini 3.1 Pro 等版本具备图像生成能力，这意味着它不仅能理解图像内容，还能根据文本指令直接生成或编辑图像。在本工作流中，Gemini 模型实际上充当了 Nano Banana 图像生成的底层引擎，通过 API 调用实现从结构化提示词到最终图像的转换。

下面是具体的配置步骤。

创建API密钥

访问Google AI Studio官网，注册或登录你的Google账号
进入Playground界面，首次使用需接受服务条款
点击「获取API密钥」→「创建API密钥」
将密钥放在默认项目中，命名后点击创建
复制密钥并妥善保管，切勿分享给任何人

Google AI Studio API密钥设置界面

设置账单与支出上限

通过API调用Nano Banana属于付费服务，Google通常会提供一定的免费额度，但高级图像生成会产生实际费用。

强烈建议设置支出上限——尤其是把API密钥交给终端里的AI代理使用时。操作方法：

进入项目设置 → 支出限额
建议先设置10美元左右的上限
随时可以在使用情况页面查看费用明细

这一步至关重要，能有效防止AI代理在批量生成时意外跑出高额账单。

安装JSON提示词生成技能

工作流的第一个关键组件是Nano Banana JSON提示词生成器。它的作用是将简单的自然语言描述转换为结构化的JSON格式提示词，从而大幅提升生成图像的质量和可控性。

JSON提示词比普通提示词好在哪

提示词工程（Prompt Engineering）是指通过精心设计输入文本来引导 AI 模型产生期望输出的技术。在图像生成领域，提示词的质量直接决定了输出图像的质量和可控性。传统的自然语言提示词存在歧义性高、维度覆盖不全等问题，而 JSON 格式的结构化提示词通过预定义的键值对强制覆盖图像生成的所有关键维度。这种方法借鉴了软件工程中 Schema 验证的思想——通过固定的数据结构确保信息的完整性和一致性。

普通提示词如「一个香水瓶」只能给出模糊的指令，而JSON格式可以精确指定多个维度：

构图：中景、特写、全景等
光照：自然光、工作室灯光、黄金时段等
表面材质：磨砂、光泽、金属质感等
环境：室内、户外、抽象背景等
类型与描述：产品摄影、概念艺术、UI原型等

这种结构化描述通常不是人类会手动编写的，但Claude Code可以在几秒内自动生成，质量远超手写提示词。JSON Schema 还可以根据不同应用场景（如电商产品图、社交媒体素材）进行定制，形成可复用的提示词模板库，这为团队协作和风格一致性提供了坚实的基础。

JSON提示词技能安装界面

安装步骤

在终端中运行以下NPM命令即可完成安装：

npm install @developer/claude-code-nano-banana-skills

安装时选择「全局安装」，这样所有代理都能调用。安装完成后，在Claude Code中输入斜杠命令即可使用该技能。

安装图像生成技能：连接Nano Banana API

第二个技能负责实际调用Nano Banana进行图像生成。整个工作流的执行逻辑是这样的：

JSON提示词技能：将自然语言转换为结构化JSON
Nano Banana生成技能：将JSON传给API，返回生成的图像
叠加其他技能：将图像嵌入网站、文档等项目

配置流程

下载技能文件后，将所有文件交给Claude Code，告诉它：

"使用这些文件创建一个用Nano Banana生成图像的新技能，不要做任何修改，只需将其封装成技能并确保全局可用。"

Claude会自动完成技能创建，接下来需要：

运行安装命令安装所有依赖项
导出Gemini API密钥：export GEMINI_API_KEY=你的密钥

API 密钥是访问云服务的身份凭证，一旦泄露，他人可以用你的密钥调用付费服务并产生费用。在 AI 代理场景中，安全风险尤为突出：代理可能会将密钥写入日志文件、包含在代码提交中，或者通过聊天记录被云端同步。使用 export 命令在终端会话中设置环境变量是一种业界标准的密钥管理实践——密钥仅存在于当前终端进程的内存中，不会被持久化到文件系统。更进阶的做法包括使用 .env 文件配合 .gitignore 防止密钥被提交到版本控制系统，或使用 HashiCorp Vault、AWS Secrets Manager 等专业密钥管理服务。

这个技能的底层通过Python API调用Gemini 3.1 Pro等模型进行图像生成，同时支持多轮图像编辑、参考图片输入、不同宽高比设置等高级功能。

实战演示：从零到批量出图

基础生成测试

配置完成后，直接在Claude Code中输入指令即可测试。例如：

"使用Nano Banana Pro技能和JSON提示词技巧，生成一张9:16比例的图片，内容是一个人全身站立，手里拿着一瓶雪碧，另一只手拿着Mac mini。"

Claude会先调用JSON提示词技能生成结构化描述，再将其传给Nano Banana API完成图像生成。整个过程无需离开终端窗口。

语音输入工具辅助提示词编写

参考图编辑

更实用的功能是基于参考图的编辑。你可以上传一张已有图片，然后告诉Claude：

"在这张图片里，把Cloud的标志换成ChatGPT的标志，使用Nano Banana Pro技能。"

技能内置了文件引用功能，会将参考图作为输入传递给Python脚本，实现局部替换或风格调整。这种基于参考图的编辑能力在技术上依赖于图像修复（Inpainting）和图像引导生成（Image-to-Image）技术——模型不是从零开始生成，而是在保留原图大部分内容的基础上，仅对指定区域进行重新生成。这在品牌素材迭代、产品图修改等场景中非常高效。

批量生成网站配图

最值得关注的应用场景是一句话生成包含AI图片的完整网站。实际演示中，只需告诉Claude：

"做一个超级流畅干净的网站，把我们生成的四张不同图片放进去。"

Claude会自动调用Nano Banana生成所有图片，并直接将它们嵌入到网站代码中——整个过程只需一两分钟就能完成。这体现了 AI 代理的核心优势：它能够将多个原本独立的工具（图像生成 API、前端代码编写、文件系统操作）串联成一个连贯的自动化流水线，开发者只需描述最终目标，代理负责分解任务并逐步执行。

工作流的扩展性与安全注意事项

安全提醒

永远不要在聊天中直接粘贴API密钥，聊天历史可能被记录或同步
通过终端手动运行export命令来设置密钥是更安全的做法
务必设置支出上限，防止批量任务产生意外费用

可以怎么扩展

这套工作流的真正价值在于可组合性。几个值得尝试的方向：

将图像生成与网站构建技能组合，实现一键生成带图网站
与文档技能组合，自动生成包含配图的报告或PPT素材
自定义JSON Schema，针对电商产品图、社交媒体素材等特定场景优化提示词模板
为不同任务分配最合适的模型：用Gemini处理图像生成，用Claude处理文本和代码

这种"技能可组合"的架构思想与微服务（Microservices）在软件工程中的理念一脉相承——每个技能是一个独立的功能单元，具备明确的输入输出接口，可以被灵活地编排和组合。随着 AI 代理生态的成熟，未来可能会出现类似"技能市场"的平台，开发者可以像安装 npm 包一样安装和组合各种 AI 技能，构建出越来越复杂的自动化工作流。

这套方案的核心思路是让AI代理充当图像生成的中间层，将原本需要在多个工具间手动切换的操作，压缩到一个统一的终端界面中完成。对于需要频繁生成AI图像的开发者和内容创作者来说，花半小时配置一次，后续每次出图都能省下大量时间。

核心要点

通过将Nano Banana 2接入Claude Code，实现终端内全自动批量图像生成，告别多窗口手动操作
利用JSON结构化提示词技能，自动生成包含构图、光照、材质等详细参数的高质量提示词，显著优于手写描述
完整配置流程包括获取Google AI Studio API密钥、设置支出上限、安装JSON提示词生成器和Nano Banana生成技能
支持参考图编辑、多种宽高比、批量生成等高级功能，可一句话生成包含AI配图的完整网站
工作流具备高度可扩展性，可与网站构建、文档生成等其他技能自由组合

为什么要把图像生成模型接入Claude Code

这篇文章介绍的方案直接解决了这个问题——将Nano Banana 2通过API接入Claude Code，让AI代理帮你完成从提示词生成到图片输出的全流程。

接入之后，你可以做到：

同时启动20个生成任务，无需逐个排队等待
不用自己编写复杂的图像提示词，Claude会自动生成结构化的JSON提示
所有操作在一个终端界面中完成，告别多窗口来回切换
生成的图片可以直接嵌入网站、演示文稿等项目

Claude Code工作界面