李博!上次你给我安利的那个Nano Banana出图,我用了几次之后真的要疯了。
怎么了?效果不好?
效果挺好的,但流程太割裂了。打开网页、写提示词、等生成、下载图片,再切回我的项目里。上周要给一个落地页配六张图,我来回切窗口切了一下午。
哈哈哈,那你今天算是问对人了。我最近刚搞了一套方案,直接把Nano Banana 2接进Claude Code里,在终端里一句话就能批量出图。
等会儿,Claude Code?就是Anthropic那个命令行工具?那不是写代码用的吗,还能出图?
你看,这就是很多人的误解。Claude Code本质上是一个AI代理,agent嘛,它不只是写代码。它能自己规划任务、调API、读写文件,你告诉它目标,它自己拆解步骤去执行。
所以关键思路就是——让Claude Code当中间层,你说人话,它帮你调Nano Banana的API,图片直接生成到本地。
这我理解了。但Nano Banana不是有自己的接口吗,为什么还要绕一圈走Google AI Studio?
好问题。这套工作流实际上是通过Google AI Studio的API调Gemini模型来驱动图像生成的。Gemini本身是多模态的,能理解也能生成图像,Nano Banana在这里更像是整个生成流水线的一部分。
你需要先去Google AI Studio注册、拿一个API密钥。这步很简单,进Playground接受条款,点创建密钥就行。
那这个要花钱吧?
要。Google有一定免费额度,但高级图像生成会产生费用。我跟你说,这里有个特别重要的事——
设支出上限?
对!你反应很快。尤其是你把密钥交给AI代理用的时候,它可不会心疼你的钱。批量生成的时候如果没有上限,一不小心就跑出一张大账单。我建议先设10美元封顶。
好吧这个确实吓人。那配置好密钥之后呢?
接下来要装两个技能。第一个是JSON结构化提示词生成器。这个是真的厉害,你听我说。
JSON提示词?我平时写提示词都是直接写一句话啊,比如'一个香水瓶'。
这就是问题所在!你写'一个香水瓶',模型根本不知道你要什么构图、什么光照、什么材质。JSON格式会把这些维度全部拆开——中景还是特写、自然光还是工作室灯光、磨砂还是金属质感、什么背景环境,全部用键值对写清楚。
真的假的,差别有那么大?
差别是质的飞跃。而且重点是,这种结构化描述正常人谁会手写啊?但Claude几秒钟就能自动生成,质量远超你手搓的提示词。
所以等于Claude帮我当了一个专业的提示词工程师。
没错,而且是免费的、不会累的那种。
行行行,别得意了。第二个技能呢?
第二个就是Nano Banana生成技能本体了。装好之后整个链路就通了——你说一句话,Claude先调第一个技能生成JSON提示词,再调第二个技能把JSON传给API出图,图片直接存本地。
配置的时候有个安全细节,API密钥一定要用终端的export命令设环境变量,千万别直接粘在聊天里。聊天记录可能被同步到云端,密钥就泄露了。
这个我们产品经理太懂了,之前有同事把密钥提交到GitHub上,半小时就被扫到了,账单直接爆。
对,血泪教训。好,配好之后我给你说说实际用起来有多爽。
来来来,我最关心这个。
比如你在终端里直接说:'生成一张9:16的图,一个人全身站立,手里拿雪碧,另一只手拿Mac mini。'Claude自己生成JSON提示词,自己调API,图片就出来了。全程不用离开终端。
那批量呢?你之前说能同时跑20个任务?
对,并发执行。传统方式是串行的,一张等一张,20张图可能要等很久。并发就是20个请求同时发出去,但要注意API有速率限制,超了会返回429错误,所以实际上要做指数退避来平衡。
你又开始学术了。简单说就是——快很多但别太猛,对吧?
你们产品经理就知道简化!但对,意思没错。
哈哈。那还有个功能我特别想知道——参考图编辑是怎么回事?
这个超实用。你上传一张已有的图,然后告诉Claude比如'把这个logo换成ChatGPT的logo',它会用图像修复技术,就是Inpainting,只改你指定的区域,其他部分保持不变。
这不就是我们做品牌素材迭代最需要的功能吗!以前每次改个logo要重新找设计师,现在一句话就搞定?
而且更炸裂的是——你可以一句话让Claude生成一个带AI配图的完整网站。
等会儿让我想想……你是说,它自己生成图片,自己写网页代码,自己把图片嵌进去?
对,一两分钟搞定。这就是agent的核心价值——把图像生成、前端代码、文件操作这些原本独立的工具串成一条自动化流水线,你只管说目标。
我突然觉得这个思路可以往很多方向扩展。比如自动生成带配图的产品文档、电商详情页……
你get到了。这套架构的精髓就是可组合性,跟微服务的理念一样。每个技能是独立的功能单元,你可以自由编排。以后可能会出现类似技能市场的东西,像装npm包一样装AI技能。
嗯,这么一想,花半小时配置一次,后面每次出图都省一大堆时间,确实值。
而且你想啊,对你们产品经理来说,以后做原型、做演示,图片这块基本不用求人了。
得了吧,你就直说以后设计师要失业了呗。
我可没这么说啊!但工具链确实在往这个方向进化——AI代理把所有碎片化的操作粘合起来,人只需要关注最终想要什么。
行,今天这个我回去就配。记得提醒我设支出上限啊,不然月底看账单要哭。
放心,10美元先顶着,够你玩一阵了。