一个Prompt搭建本地生图MCP Server，让Codex批量生成编辑图片

当Codex遇上本地图像生成：一个Prompt就够了

OpenAI的Codex是目前最强大的代码生成工具之一，但它本身并不具备图像生成能力。即便是GPT-4等多模态模型，在代码编辑器环境中也无法直接生成图片。然而在实际项目开发中，批量生成或编辑图片的需求随处可见——电商产品图、营销素材、文章配图，哪个都少不了。

每次都调用云端API来生图？成本高昂不说，批量场景下更是烧钱。那有没有办法让Codex直接调用本地显卡算力，搞定图片的批量生成和编辑？

答案是：搭建一个本地图像生成的MCP Server。只需要一个精心设计的Prompt，就能让Codex秒变图像生成助手。

什么是MCP Server本地图像生成服务

MCP（Model Context Protocol）是一种让AI模型调用外部工具和服务的标准协议。它由Anthropic于2024年底正式提出并开源，旨在解决大语言模型与外部工具、数据源之间的互操作性问题。在MCP出现之前，每个AI应用都需要为不同的工具和API编写专门的集成代码，导致大量重复开发工作。MCP的设计借鉴了LSP（Language Server Protocol）的理念——正如LSP统一了代码编辑器与编程语言之间的通信标准，MCP则统一了AI模型与外部能力之间的调用协议。它采用客户端-服务器架构，通过JSON-RPC 2.0进行通信，支持工具调用（Tools）、资源访问（Resources）和提示模板（Prompts）三种核心原语。

搭建一个本地MCP Server后，我们可以把图像生成模型（比如Flux）封装成Codex可调用的服务，在对话框中直接下达图像生成和编辑指令。

这套方案的核心优势：

零Token消耗：图像生成完全在本地GPU上完成，不消耗任何API Token
批量处理能力：一次性生成或编辑数十甚至上百张图片
迭代式编辑：生成后继续对话，让Codex对图片进行二次编辑和优化
无缝集成项目：生成的图片直接保存到项目目录，随取随用

批量生成的电商图片展示

搭建本地生图MCP Server全流程

准备核心文件与选择模型

整个MCP服务的搭建只需要一个Prompt就能完成。这个Prompt包含几个关键部分：

inference.py：推理脚本，选用Flux 2的9B Clean版本作为底层模型。Flux是由Black Forest Labs开发的开源图像生成模型系列，其核心团队正是Stable Diffusion的原始创建者。Flux 2的9B参数版本采用了混合Transformer-DiT架构，结合了流匹配（Flow Matching）训练范式，相比传统的扩散模型在生成质量和推理效率上都有显著提升。所谓"Clean版本"是指经过额外数据清洗和对齐训练的变体，在生成商业级图像时表现更稳定，尤其在文字渲染、人物比例和光影一致性方面优于基础版本，是目前质量很高的开源图像生成模型之一。
MCP服务上下文：提供MCP协议的背景知识，让Codex正确理解并搭建服务架构
环境配置信息：指定使用哪个Anaconda环境来运行服务

Prompt配置界面

一键生成项目结构

把Prompt输入Codex后，它会自动创建一个标准的Python项目结构：

src/ 目录：存放核心代码
pyproject.toml：项目配置文件
README.md：详细的安装和使用说明

整个创建过程需要等待一段时间，完成后你会得到一个结构清晰、文档完善的MCP服务项目。

自动生成的README文档

配置运行环境与安装依赖

Prompt中有一个关键细节需要根据自己的环境调整——最后一句话指定了使用哪个Anaconda环境。如果服务器上已经有装好PyTorch的base环境，直接复用即可；用其他环境的话，替换环境名称就行。

项目生成后，安装两个关键依赖：

# 安装diffusers库（如果环境中没有的话）
pip install diffusers

# 安装MCP服务的Python包
pip install -e .

其中，diffusers是Hugging Face维护的开源Python库，专门用于加载和运行各类扩散模型与流匹配模型。它提供了统一的Pipeline抽象，开发者无需关心底层的噪声调度器（Scheduler）、VAE解码器等复杂组件，只需几行代码即可完成模型加载和推理。diffusers支持包括Stable Diffusion、SDXL、Flux、Kandinsky等在内的数十种主流模型，并内置了img2img（图像到图像）、inpainting（局部重绘）、ControlNet（条件控制）等多种编辑管线，这也是本方案能实现"迭代式编辑"的技术基础。

这里有个巧妙的设计：pip install -e . 是Python的"可编辑模式安装"（editable install），它会在Conda环境中注册MCP服务的入口点（entry point），使得系统可以在任意路径下通过命令名直接启动服务，而不依赖于当前工作目录。这意味着MCP服务的启动命令被全局注册，使用起来更加灵活便捷。

配置Codex连接MCP Server

依赖安装完成后，在.codex/config.toml文件中添加MCP服务的配置。配置完成后，必须关闭并重启VSCode，因为只有重新启动才能加载新的MCP配置。

重启后，在MCP面板中看到local-imagegen服务已成功加载，就说明安装配置全部完成了。

MCP服务安装成功

Codex批量生图与编辑实测效果

批量生成电商产品图

配置完成后，直接在Codex对话框中输入指令就能用。比如输入"生成五张电商图"，Codex会自动推理出合适的提示词，调用本地MCP服务进行图像生成。

一个有意思的发现：经过Codex输出的图像，丰富度和质量往往比直接用原生提示词更好。这是因为Codex在调用图像生成工具时，并非简单地将用户指令原样传递给Flux模型，而是利用自身的语言理解能力进行"提示词工程"（Prompt Engineering）。当用户说"生成五张电商图"时，Codex会推理出具体的场景描述、光影条件、构图方式和风格关键词，为每张图生成差异化的详细提示词。这种能力源于大语言模型在训练过程中学习到的海量图像描述文本，使其能够将模糊的用户意图转化为图像模型更容易理解的结构化描述。实测中，一次性生成100张电商图也完全没问题，图片风格丰富多样，质量稳定。

关于本地GPU推理的性能，值得补充一些实际数据：Flux 2的9B参数模型对GPU显存有较高要求。在FP16精度下，模型权重本身约占18GB显存，加上推理过程中的中间激活值和VAE解码，通常需要24GB以上的GPU显存（如NVIDIA RTX 4090或A5000）。如果显存不足，可以采用FP8量化将显存需求降至约12GB，或使用模型offload技术将部分计算卸载到CPU内存，但会显著增加推理时间。单张1024×1024图片的生成时间在RTX 4090上约为8-15秒（取决于采样步数），批量生成100张图片大约需要15-25分钟——这个效率对于电商场景来说已经非常实用。

对话式迭代编辑图片

这是整套方案最让人兴奋的功能。生成图片后，你可以继续在对话中提出修改要求，比如：

"这个瓶子太光了，能不能加点商标上去"
"请编辑这五张图片，让它们更好看一点，加上一些商标"

Codex会自动推理出合适的编辑策略，批量对图片进行二次处理。这背后依赖的是diffusers库提供的img2img管线——它以原始图片作为初始噪声的起点，结合新的文本提示词进行部分去噪重建，从而在保留原图整体构图和色调的同时，按照新的指令进行局部修改。编辑完成后，Codex甚至会贴心地生成一张五拼图预览，方便快速对比效果。

从实际对比来看，编辑前后差异明显，Codex展现出了不错的审美能力。更重要的是，多张图片之间的风格保持统一，这对电商场景来说非常关键。

本地MCP方案对比云端API的优势

维度	云端API方案	本地MCP方案
成本	按次计费，批量场景费用高	一次部署，零边际成本
速度	受网络延迟和排队影响	取决于本地GPU性能
隐私	数据需上传云端	数据完全本地化
灵活性	受API参数限制	可自定义模型和参数
集成度	需要额外开发对接	直接在IDE中操作

以成本为例做一个具体对比：目前主流的云端图像生成API（如DALL·E 3、Midjourney API）单张图片的生成费用在0.02-0.08美元之间，批量生成100张图片至少需要2-8美元。而本地方案的边际成本仅为电费——以RTX 4090约300W的功耗计算，生成100张图片耗时约20分钟，电费成本不到0.02美元。当日常生成量达到数百张以上时，本地方案的成本优势将极为显著。

最适合的使用场景

电商产品图批量生成：快速产出大量不同风格的产品展示图
项目素材即时制作：开发过程中随手生成所需的图片素材
设计方案快速迭代：通过对话式交互，几轮对话就能敲定图片方案
内容创作配图：批量生成文章配图、社交媒体素材等

总结

通过一个精心设计的Prompt，我们把Codex从纯代码生成工具扩展成了具备图像生成和编辑能力的全能助手。整套方案的核心在于用MCP协议桥接Codex与本地Flux图像生成模型，实现了零Token消耗的批量图像生产流水线。

这种"一个Prompt搭建一个服务"的思路，也揭示了一个值得关注的趋势：未来越来越多的本地AI能力，都可以通过MCP Server的方式接入Codex等AI编程助手，让开发者在一个统一的界面中调度各种AI能力，真正实现AI驱动的全流程开发。目前社区中已经涌现出大量MCP Server实现，涵盖数据库查询、文件系统操作、Web搜索、代码执行等各个领域，而本文介绍的本地图像生成方案，正是这一生态中极具实用价值的一环。随着MCP协议的持续演进和更多开发工具的原生支持，"AI调度AI"的开发范式将变得越来越普遍。