播客频道 | 一个Prompt搭建本地生图MCP Server，让Codex批量生成编辑图片

最近我在做一个电商项目的时候遇到一个特别头疼的问题——需要批量生成大量产品展示图。你知道的，调云端API生图，一张几分钱，听起来不多，但量一上来，一天几百张，那账单看着就肉疼。然后我就发现了一个特别巧妙的方案，用一个Prompt，就能让Codex直接调用本地显卡来生成和编辑图片。今天请来的嘉宾对这套方案非常熟悉，来，给大家聊聊这到底是怎么回事。"}, {"speaker": "guest", "text": "对，这个方案的核心思路其实特别清晰——就是搭一个本地的MCP Server，把Flux图像生成模型封装成Codex能调用的服务。你在Codex的对话框里说一句"帮我生成五张电商图"，它就自动帮你搞定了，完全不走云端，零Token消耗。"}, {"speaker": "host", "text": "等等，我先帮听众补一下背景。Codex大家可能知道，是OpenAI非常强大的代码生成工具，但它本身是不能生成图片的。那MCP又是什么？感觉这个概念最近出现频率特别高。"}, {"speaker": "guest", "text": "嗯，MCP全称是Model Context Protocol，模型上下文协议，是Anthropic在2024年底提出并开源的。你可以把它理解成一个"万能翻译器"。以前呢，你想让AI调用某个外部工具，比如查数据库、操作文件系统，每个都得单独写一套对接代码，特别麻烦。MCP就是把这个过程标准化了。它的设计灵感其实来自LSP——就是代码编辑器里统一各种编程语言支持的那个协议。MCP做的是类似的事，只不过它统一的是AI模型和外部能力之间的调用方式。"}, {"speaker": "host", "text": "哦，这个类比特别好理解。就像USB接口统一了各种外设的连接方式一样，MCP统一了AI调用外部工具的方式。"}, {"speaker": "guest", "text": "对对对，就是这个意思。所以我们搭建一个本地MCP Server，把Flux图像生成模型包装进去，Codex通过MCP协议就能直接调用它了。整个过程就像给Codex装了一个"本地生图插件"。"}, {"speaker": "host", "text": "那具体搭建过程复杂吗？我看文章说只需要一个Prompt就能搞定？"}, {"speaker": "guest", "text": "真的就是一个Prompt。这个Prompt设计得很精巧，包含三个关键部分：第一是推理脚本，选用的是Flux 2的9B Clean版本作为底层模型——这个模型是Black Forest Labs开发的，核心团队就是当年做Stable Diffusion的那帮人，质量非常好，尤其在文字渲染和光影一致性方面表现很稳定。第二是MCP服务的上下文信息，让Codex知道怎么搭建服务架构。第三是环境配置，比如指定用哪个Anaconda环境。"}, {"speaker": "host", "text": "然后把这个Prompt丢给Codex，它就自动生成整个项目结构了？"}, {"speaker": "guest", "text": "没错，它会自动创建src目录、pyproject.toml配置文件、README文档，结构非常规范。生成完之后你只需要装两个依赖——一个是Hugging Face的diffusers库，用来加载和运行图像模型的；另一个就是用pip install -e .把MCP服务本身装上。这里有个巧妙的设计，用的是可编辑模式安装，它会把MCP服务的启动命令全局注册，这样你在任何路径下都能直接启动服务，不用每次都切到项目目录。"}, {"speaker": "host", "text": "装完之后还需要配置什么吗？"}, {"speaker": "guest", "text": "还有一步，在Codex的配置文件里添加MCP服务的连接信息，然后一定要重启VSCode。这一步很多人会忘，不重启的话新配置是加载不进去的。重启之后在MCP面板里看到local-imagegen服务亮起来了，就说明搞定了。"}, {"speaker": "host", "text": "好，搭建过程确实不复杂。那实际用起来效果怎么样？我最关心的是生成质量和批量处理的能力。"}, {"speaker": "guest", "text": "这是最让我惊喜的部分。你在对话框里说"生成五张电商图"，Codex不是简单地把这句话原样扔给Flux模型，而是会自己做一轮提示词工程。它会推理出具体的场景描述、光影条件、构图方式，为每张图生成差异化的详细提示词。所以出来的图片丰富度和质量，往往比你自己手写提示词还要好。实测一次性生成100张电商图也完全没问题，风格多样，质量稳定。"}, {"speaker": "host", "text": "100张！那得跑多久啊？"}, {"speaker": "guest", "text": "在RTX 4090上，单张1024乘1024的图大概8到15秒，100张差不多15到25分钟。不过要注意，Flux 2的9B模型对显存要求比较高，FP16精度下需要24GB以上的显存。如果显存不够，可以用FP8量化把需求降到12GB左右，但推理速度会慢一些。"}, {"speaker": "host", "text": "嗯，这个对硬件还是有一定要求的。不过你刚才提到一个功能我特别感兴趣——对话式迭代编辑？生成完还能继续改？"}, {"speaker": "guest", "text": "对，这是整套方案最让人兴奋的地方。比如你生成了五张产品图，觉得瓶子太素了，直接在对话里说"加点商标上去"或者"让它们更好看一点"，Codex就会自动调用diffusers库的img2img管线，以原图为基础进行局部修改。它会保留原图的整体构图和色调，只按照你的新指令做调整。而且编辑完之后，Codex还会贴心地生成一张五拼图预览，方便你快速对比效果。多张图之间风格保持统一，这对电商场景来说太重要了。"}, {"speaker": "host", "text": "这就相当于有了一个随叫随到的设计助理，还不用付工资。那跟云端API方案比，成本差距到底有多大？"}, {"speaker": "guest", "text": "我算过一笔账。主流的云端生图API，像DALL·E 3、Midjourney API，单张大概0.02到0.08美元，100张就是2到8美元。而本地方案呢？RTX 4090功耗大概300瓦，生成100张图跑20分钟，电费成本不到0.02美元。你看，差了两个数量级。当你每天的生成量达到几百张以上的时候，这个成本优势就非常非常明显了。更别说数据隐私——所有图片都在本地生成，不用上传到任何云端。"}, {"speaker": "host", "text": "确实，对于电商公司来说，产品图的保密性也是很重要的考量。其实我觉得这个方案背后还有一个更大的趋势值得关注。"}, {"speaker": "guest", "text": "你是说MCP生态的扩展对吧？其实现在社区里已经涌现出大量的MCP Server实现了，数据库查询、文件操作、Web搜索、代码执行，各种各样的都有。本地图像生成只是其中一个应用。这种"一个Prompt搭建一个服务"的思路，本质上是在让开发者在一个统一的界面里调度各种AI能力。以后可能不只是生图，本地的语音合成、视频处理、3D建模，都可以用类似的方式接入。"}, {"speaker": "host", "text": "所以本质上我们在聊的不只是一个生图工具，而是"AI调度AI"这种新的开发范式。Codex作为中枢，通过MCP协议去调用各种本地或远程的AI能力，开发者只需要用自然语言下达指令就行了。"}, {"speaker": "guest", "text": "没错，而且门槛在不断降低。你看这个方案，从搭建到使用，核心就是一个Prompt加几条安装命令。以前这种事情可能需要一个工程师花几天时间来做，现在真的是几分钟就搞定了。"}, {"speaker": "host", "text": "好，那今天就聊到这。总结一下：通过一个精心设计的Prompt，我们可以让Codex自动搭建一个本地MCP Server，把Flux图像生成模型封装成可调用的服务，实现零Token消耗的批量图像生成和对话式迭代编辑。硬件上需要一张24GB以上显存的GPU，但换来的是成本、隐私和灵活性上的巨大优势。对于有批量生图需求的团队来说，这个方案真的值得一试。"} ],

一个Prompt搭建本地生图MCP Server，让Codex批量生成编辑图片

更多播客

AI热点风向标·06月07日午间版

AI热点风向标·06月07日早间版

每日AI新鲜事·06月07日早间播报