让AI Agent做发布视频、增长推广和BP的完整实践

AI Agent正在重新定义独立开发者的全流程工作范式
文章展示了独立开发者如何利用AI Agent承担从产品发布视频制作、多平台增长推广、BP撰写到持续迭代的几乎全部工作。通过基于HTML的视频生成、MCP协议组件调用、GPT多模态能力将分镜流程压缩为一步等技术手段,一个人加一个Agent即可完成原本需要团队协作的事情,真正的壁垒在于能否将AI Agent编排成完整的生产力闭环。
引言:上线只是起点
产品上线之后,真正的挑战才刚刚开始——你需要制作发布视频、在多个平台推广、准备BP融资材料、持续迭代产品。对于独立开发者来说,这些工作量足以让人望而却步。
在 StoryCam 系列的第10期中,作者展示了一个极具启发性的工作流:让 AI Agent 承担从视频制作到增长推广的几乎全部工作,将原本需要团队协作的事情压缩到一个人加一个 Agent 就能完成。这不仅是效率的提升,更是独立开发者工作范式的根本转变。
用AI制作产品发布视频
从Remotion到基于HTML的视频生成
最近几个月,AI视频生成领域有两个值得关注的工具方向:
- Remotion:基于 React 前端组件的视频生成框架,大约三个月前开始流行,可以生成 PPT、演讲视频等内容
- 基于 HTML 的视频生成:这是更新的方向,将抽象层下沉到 HTML 层面
Remotion 的技术背景:Remotion 由 Jonny Burger 于2021年创建,其核心理念是「用写 React 组件的方式写视频」。开发者可以用 JSX 描述每一帧的视觉状态,通过时间轴 API 控制动画,最终由无头浏览器(Headless Chrome)逐帧渲染成 MP4。这种方式的优势在于视频内容完全可编程、可版本控制,且与前端生态无缝集成。而「基于 HTML 的视频生成」则将抽象层进一步下沉——不依赖 React 组件树,直接操作 HTML/CSS/Canvas,让 AI 模型可以用它最熟悉的语言描述视觉内容。两者的本质区别在于:Remotion 更适合工程师精细控制,HTML 方案则更适合 AI Agent 自主生成,因为大模型在 HTML/CSS 上的训练数据远比 React DSL 丰富,生成质量和稳定性更高。
业界的共识正在形成:大模型最擅长表达的两种语言,一个是 Markdown,一个是 HTML。基于 HTML 做视频或 PPT 演讲,天然适合 AI Agent 的能力边界。

让Agent自主完成视频制作
具体做法非常直接:告诉 Agent「我要发布一个视频」,然后让它自己分析还需要什么信息。Agent 会主动询问以下关键问题:
- 视频目标受众:普通用户、AI兴趣用户还是早期投资人?
- 故事样例:视频里讲什么故事?
- 视频规格:风格、长度、比例等
给出简单指令——「普通用户、中文、16:9、45秒」——Agent 就自动完成了以下工作:
- 撰写45秒的视频脚本
- 自动打开产品网站截取 UI 画面
- 组装成完整的发布视频
虽然成品在某些框选位置不够精准、还缺少配音和音效,但基本的产品展示表达已经到位。Agent 还提供了一个简单的编辑器界面,可以像剪映一样调整不同帧、字体大小等细节。
从视频到全平台增长推广
一键多平台内容分发
视频做完后,可以直接让 Agent 把发布视频发到推特上(先发到预览环境验证)。这个思路可以延伸到完整的增长链路:
- 让 Agent 撰写推特 thread、post 等不同格式的内容
- 针对小红书、视频号等不同平台生成对应的物料
- 批量分发到10个以上平台
这就是独立开发者最需要的增长能力——把产品推出去、把用户拉回来、不断迭代产品。从原型到产品的闭环,靠的就是这种自动化的推广机制。

BP商业计划书也交给AI Agent
甚至连 BP(商业计划书)的制作也可以交给 AI Agent 完成。方法很简单:把投资人关心的问题转化为 prompt,在 Agent 的对话框架下快速生成。这让融资准备工作的效率提升了一个数量级。
部署与技术栈的选择逻辑
全栈部署的自动化
在部署层面,有几个关键的技术选择值得参考:
- 模型接入:选用火山引擎(字节跳动),文档已经支持 Markdown 格式复制,比某些云厂商体验更好
- 全栈部署:绑定 GitHub 主分支,一旦发新版就自动热更新线上环境,旧版本平滑下线
- 环境变量:通过 CLI 自动管理生产环境配置
- 监控:内置 log 和 metric,追踪 CPU、内存等性能指标
前端提效的组件化策略

一个重要的选择原则是:前端组件必须同时具备 CLI、SDK 和 MCP 支持,这样 AI Agent 才能直接读取和使用这些组件。Button、日历、登录卡片等常见 UI 元素,不需要重新编写,直接让 Agent 调用现成组件即可。
理解 MCP 协议的重要性:MCP(Model Context Protocol)是 Anthropic 于2024年底提出并开源的标准协议,旨在解决 AI 模型与外部工具、数据源之间的「最后一公里」连接问题。在此之前,每个 AI 应用都需要自己实现工具调用的适配层,导致生态碎片化严重。MCP 定义了一套统一的 Server-Client 架构:工具提供方(如组件库、数据库、文件系统)实现 MCP Server,AI Agent 作为 MCP Client,通过标准化的 JSON-RPC 协议发现和调用这些工具。对于前端组件库而言,支持 MCP 意味着 AI Agent 可以直接「读懂」组件的 props 定义、使用示例和设计规范,从而在生成代码时精准调用正确的组件,而不是凭空臆造一个可能不存在的 API。CLI 供人类开发者使用,SDK 供代码调用,MCP 则是专门为 AI Agent 设计的接口层——三者并存,才能覆盖人机协作的全部场景。
为了避免产品看起来太有「AI感」,还需要做一些细节打磨:
- 替换默认 icon 为自定义设计
- 从 UI 设计稿中抠图(切图),将元素做成 SVG 矢量图
- 调整小细节让界面更有质感
产品迭代的下一步:从三步压缩到一步
推特上的趋势洞察

一个值得关注的重要趋势是:GPT 的图片生成能力已经可以一步完成剧本、分镜脚本和分镜图的全部工作。
故事板的影视工业背景:故事板(Storyboard)起源于1930年代的迪士尼动画工作室,最初是为了在正式制作前预览动画序列、节省昂贵的手绘成本。其标准格式包含三个层次:场景描述文字、镜头构图草图、以及镜头间的转场标注。在好莱坞工业流程中,从剧本到故事板再到分镜脚本(Animatic)通常需要专业故事板艺术家耗费数周时间。进入短视频时代,这套流程被大幅简化,但核心逻辑未变:先确定叙事节奏和视觉语言,再进行实际拍摄或生成。GPT-4o 等多模态模型的突破在于,它能同时理解文字叙事逻辑和视觉构图规则,将「写剧本→画分镜→生成图片」三个原本需要不同专业技能的步骤合并为一次推理过程——原本需要导演、编剧、分镜师三种角色协作的工作,现在一个人加一个模型就能完成预制作阶段的全部工作。
具体来说,现在流行的做法是:
- 下方是 Storyboard(故事板),包含分镜脚本文字和序号标注的镜头顺序
- 上方是根据故事板直接生成的视频
- 一个文生图模型就把剧本、脚本、分镜图片全部解决了
这意味着原来的「三到四步」流程可以压缩到两步甚至一步:用户不再需要写剧本、不需要写分镜脚本、不需要单独生成分镜图。
移动端原生App的产品构想
基于这个洞察,下一步的产品路径规划如下:
- 模板系统:通过 AI Agent 持续爬取推特上优质的 Storyboard 案例,分类整理成模板
- 以图生图:基于参考模板生成新的分镜故事板
- 触摸交互:在手机端支持画圈、拖拽等直觉式编辑
- 一键生成+发布:修改后的分镜板直接送入视频生成模型,产出10-15秒短视频,支持直接发布到抖音、视频号、小红书
这个方向特别适合做成原生 iOS App,商业模式也很清晰——按视频次数收费。
总结:AI Agent正在重新定义独立开发
这个案例最有价值的地方不在于某个具体工具的使用技巧,而在于它展示了一种全新的产品开发和运营范式:
- 开发阶段:AI Agent 写代码、搭架构、接 API
- 上线阶段:AI Agent 管理部署、配置环境变量
- 推广阶段:AI Agent 制作发布视频、生成多平台内容、自动分发
- 融资阶段:AI Agent 辅助撰写 BP
- 迭代阶段:AI Agent 监控数据、追踪 bug、持续优化
「一人公司」模式的历史与演进:「一人公司」(Solo Founder / One-Person Company)并非 AI 时代的新概念。早在2019年,《一人公司》(Company of One)一书就系统阐述了这种商业模式的可行性——通过极度聚焦、外包非核心工作、利用 SaaS 工具替代雇员,单个创始人可以运营一家年收入数百万美元的企业。Pieter Levels(Nomad List 创始人)是这一模式最著名的实践者,他的多个产品均由一人独立运营,累计年收入超过300万美元。AI Agent 的出现将这一模式的天花板大幅提升——过去,一人公司的瓶颈在于创始人的时间和技能边界;而 AI Agent 本质上是一个「能力放大器」,它不替代创始人的判断力和产品直觉,但可以将执行层的工作自动化。当前的核心约束已经从「你能做多少事」转变为「你能编排多少 Agent」。
当然,目前的成本还需要考量——每次生成视频大概几块钱,主要消耗在文生视频环节。但随着模型成本持续下降,这种「一人公司」的模式将越来越可行。
真正的壁垒不在于你会不会用 AI,而在于你能不能把 AI Agent 编排成一个完整的生产力闭环。
核心要点
- 利用基于 HTML 的视频生成工具,让 AI Agent 自主完成45秒产品发布视频的脚本撰写、画面截取和组装
- AI Agent 可以承担多平台内容生成和分发工作,覆盖推特、小红书等10+平台的增长推广
- 前端组件选择的核心原则:必须同时具备 CLI、SDK 和 MCP 支持,让 Agent 能直接调用
- GPT 图片生成能力已可一步完成剧本、分镜脚本和分镜图,将原来的多步流程压缩为一步
- 下一步产品方向是移动端原生 App,通过模板系统+触摸交互+一键生成发布,实现短视频创作的极简体验
相关推荐
教程攻略Cursor+Codex双IDE协同:开源项目二开实战方法论
基于实战经验总结的开源项目二次开发完整方法论,详解Cursor+Codex双IDE协同工作流,涵盖二开七环节、MVP验证、AI读源码技巧,帮助开发者三天跑通项目、两周完成业务集成。
教程攻略Cursor多Agent实战:50分钟搭建Next.js全栈博客
使用Cursor IDE多Agent协作模式,50分钟内从零搭建全栈博客。涵盖Next.js、Clerk认证、Supabase数据库集成,详解4个AI Agent分阶段开发流程与关键避坑经验。
教程攻略从零搭建AI软件工厂:Cursor工程师的多Agent协作实战经验
Cursor工程师Eric分享AI软件工厂构建实战:从自动化六层级、护栏设计、并行Agent管理到规模化扩展,详解如何用多Agent协作实现7×24小时高效软件开发。