AI生成可编辑原生PPT：PptxGenJS+OpenCode实战教程

AI生成PPT的常见痛点：导出即截图

用AI生成PPT已经不是新鲜事，但大多数方案都绕不开一个尴尬的问题——导出的PPT本质上是截图。比如之前介绍过的Sndive方案，虽然生成效果不错，但导出为PPTX格式后，所有内容都变成了图片，没法在WPS或Microsoft Office中直接编辑文字、调整排版。

要理解为什么这是个根本性的问题，需要了解PPTX格式的本质。PPTX文件本质上是一个ZIP压缩包，内部由XML文件和媒体资源组成。这一设计源自微软于2006年提交、2008年由ISO/IEC正式标准化（ISO/IEC 29500）的Office Open XML（OOXML）规范——Word的.docx、Excel的.xlsx和PowerPoint的.pptx都基于这套标准。OOXML的设计哲学是「人类可读的XML + 二进制媒体资源」的混合打包方案，使得文档既具备结构化可解析性，又能高效存储图片、音频等富媒体内容。每一页幻灯片对应一个XML文件，其中精确描述了每个文本框、图形、图片的位置、尺寸、字体、颜色等属性——文字是文字、图片是图片，彼此独立存储，这正是它可编辑的根本原因。

而截图方案的本质是把整页渲染成一张PNG或JPEG图片再嵌入PPTX，虽然文件后缀是.pptx，但内容已经是光栅化的位图，失去了所有可编辑的结构信息。这也解释了为什么截图方案的文件体积往往更大：一张1920×1080的PNG图片动辄几百KB，而原生XML描述同样内容只需几KB。

在实际工作中，这几乎是不可接受的。我们真正需要的是一份原生的、可编辑的PPT文件——文字能改、图片能换、形状能拖，和手动做的PPT没有区别。

今天分享的方案，就是专门解决这个问题的。

核心方案：用PptxGenJS生成原生PPTX

这套方案的技术核心是一个叫 PptxGenJS 的JavaScript库。它的功能很直接——通过JS代码生成标准的PPTX文件。

PptxGenJS库介绍

PptxGenJS是一个纯JavaScript实现的开源库，遵循MIT协议，可以在Node.js和浏览器环境中运行。它的核心价值在于直接操作PPTX的底层XML结构，而不是通过截图或Canvas渲染。从技术谱系来看，它属于Office Open XML（OOXML）操作库家族——类似Python生态中的python-pptx，或Java生态中的Apache POI。这类库的共同工作原理是：在内存中按照OOXML规范构建XML文档树，将图片等二进制资源编码后写入对应目录，最终将整个目录结构打包为符合规范的ZIP压缩包并重命名为.pptx后缀。PptxGenJS通过封装这套复杂的XML生成逻辑，让开发者可以用直观的API（如addText、addImage、addShape）来描述幻灯片内容，最终输出的文件在WPS、LibreOffice、Microsoft Office等主流软件中都能正常打开和编辑，与手工制作的PPT在格式层面完全等价。

PptxGenJS的核心能力

生成PPT中的文字、图片、形状等原生元素
精确控制排版、背景图片、配色方案
输出标准PPTX格式，可直接用WPS或Office打开编辑

这里有个关键点：我们并不需要自己去学PptxGenJS的API。只要AI知道怎么调用就够了。AI根据我们的需求自动生成PptxGenJS代码，运行后直接输出PPT文件。整个过程中，PptxGenJS对我们来说是透明的。

实际生成效果：WPS中可自由编辑

先看一下实际生成的效果。以一份"互联网人物风格介绍"的PPT为例，用WPS打开后：

生成的PPT效果展示

所有文字都可以直接点击编辑，想改哪段改哪段
图片、形状等都是PPT中的独立原生元素，支持拖拽、缩放、替换
整体布局和配色相当不错，内容结构也很清晰
PPT中的图片是AI从网上搜集的，内容涵盖人物简介、获奖经历、参与的综艺节目等

和截图方案相比，这种原生PPT的优势一目了然：哪里不满意直接改，完全符合日常办公的编辑习惯。

手把手操作流程：从创建Skill到一句话出PPT

整套方案使用 OpenCode（一个开源的、类似Claude Code的AI编程工具）作为AI交互入口。操作分两步走。

第一步：创建PPT生成Skill

OpenCode支持自定义Skill（技能），我们先创建一个专门用来生成PPT的Skill。在理解这个步骤之前，有必要说明Skill机制的工作原理。

Skill本质上是「提示词模板化」与「工作流编排」的结合产物，属于提示词工程（Prompt Engineering）的高级实践形态。相比单次对话中临时编写的提示词，Skill通过预定义角色设定、任务分解步骤、工具调用顺序和输出格式约束，将经过验证的解决方案固化为可复用资产——这与软件工程中「设计模式」的理念高度一致：不重复发明轮子，而是把有效的解决方案抽象成模板供后续复用。

OpenCode所代表的AI Coding Agent区别于普通聊天式AI的核心，在于它具备工具调用（Function Calling）能力——模型不仅能生成文本，还能在推理过程中决定调用哪个外部工具（读写文件、执行终端命令、调用外部API等），并根据工具返回结果继续推理。这种「思考→行动→观察」的循环（即学术界所称的ReAct框架）使得Agent能够真正自主地完成需要多步骤、跨系统协作的复杂任务，而不仅仅是给出建议。

创建Skill的过程本身也可以让AI代劳：

打开OpenCode内置的 Skill Creator 功能
告诉AI："新建一个创建PPT的Skill，技术栈使用PptxGenJS"
把PptxGenJS的官方文档链接提供给AI作为参考
AI会自动生成完整的Skill配置文件

创建Skill的过程

Skill创建完成后，里面会包含完整的工作流程定义：规划内容 → 生成JS脚本 → 运行脚本输出PPT，以及默认的配色方案等细节。这些配置全部由AI自动生成，不需要手动编写一行代码。

第二步：一句话指令生成PPT

Skill创建好之后，在当前项目中就可以直接调用了。操作非常简单：

在OpenCode中使用Skill

只需要输入一句话指令，比如：

"生成一份互联网人物周立峰的简介PPT，图片在网上搜索，要生成得好看一点。"

然后引用之前创建的PPT Skill，AI就会自动完成以下工作：

规划PPT结构：确定页数、每页内容、整体叙事逻辑
搜索素材：从网上搜集相关图片和资料
生成PptxGenJS代码：编写完整的JS脚本，包含所有页面的布局、文字、图片引用
运行并输出：执行脚本，生成最终的PPTX文件

这种「一次配置、反复调用」的模式大幅降低了AI工具的使用门槛。当用户输入自然语言指令并引用Skill时，AI会将用户意图与Skill中预定义的工作流程结合，通过Function Calling机制将整体目标自动分解为「搜索图片→编写代码→执行脚本→验证输出」等多个子任务依次执行，整个过程对用户完全透明。最终得到一份可以用WPS或Office直接打开、自由编辑的原生PPT。

方案迁移：Claude Code、Cursor同样适用

这个Skill并不绑定OpenCode。如果你日常使用的是其他AI编程工具，比如 Claude Code、Cursor 或其他Coding Agent，只需要把Skill的配置内容复制过去就能用。核心逻辑是通用的：

让AI理解PptxGenJS的API用法
根据用户需求规划PPT内容和结构
自动生成并执行JS代码
输出标准PPTX文件

这种可迁移性的底层原因在于：不同AI编程工具虽然界面和交互方式各异，但底层都依赖相似的Function Calling机制和代码执行沙箱能力。只要工具支持「运行代码」这一核心操作，PptxGenJS的Node.js脚本就能在其中正常执行，整套方案的有效性不依赖于任何特定平台的私有特性。换句话说，只要你的AI工具支持运行代码，这套方案就能跑起来。

原生PPT vs 截图方案对比总结

这个方案的精妙之处在于，把AI的内容生成能力和PptxGenJS的原生PPT生成能力做了一次漂亮的结合。AI负责"想"——规划内容、搜集素材、设计布局；PptxGenJS负责"做