AI Agent团队自动化短视频生产：从素材到发布的全流程实战

从手动到全自动：一个创作者的AI工作流革命

短视频创作者最大的痛点是什么？不是不会写，不是没灵感，而是每天重复做同样的事——找素材、写稿、录制、剪辑、逐平台发布。一位B站UP主（三哥）分享了他如何用多个AI Agent组成"虾军团"，将短视频生产全流程自动化的实践经验。

bilibili source

这套系统的核心思路是：把重复性工作交给AI，人只负责把关和录制。从结果来看，他从原来一天撑死两三条视频，变成了可以批量产出内容，效率提升显著。

四只"虾"的分工：多Agent团队架构解析

这套AI工作流本质上是一个多Agent协作系统，每个Agent负责一个明确的环节，形成流水线式的内容生产管道。

多Agent系统（Multi-Agent System, MAS）是人工智能领域的一个重要研究方向，其核心思想是将复杂任务分解为多个子任务，由不同的智能体各自负责处理。每个Agent具备感知环境、自主决策和执行动作的能力，Agent之间通过消息传递或共享状态进行协调。在大语言模型时代，这一架构被广泛应用于内容生产、软件开发、数据分析等场景。典型的框架包括AutoGen、CrewAI、LangGraph等，它们提供了Agent定义、任务编排和通信协议的基础设施，使得非技术用户也能搭建多Agent工作流。

第一只虾：素材挖掘Agent

创作者每天会将自己的工作、生活中的见闻和思考"喂养"给这个Agent，相当于建立了一个个人知识库。这只Agent的任务是从这些日常积累中自动挖掘有价值的内容素材，丢进一个"素材池"。

之前有跟大家去讲过

这个环节解决的是灵感来源的问题。以前需要每天早上刷手机找灵感，现在变成了持续积累、自动筛选。

从技术实现角度看，素材挖掘Agent的底层很可能涉及RAG（Retrieval-Augmented Generation，检索增强生成）架构。RAG的工作原理是：先将用户输入的文档、笔记、语音转录等内容进行向量化处理，存储在向量数据库中；当需要生成内容时，系统先从知识库中检索最相关的片段，再将其作为上下文传递给大语言模型进行创作。这种方式既保证了输出内容的个人化和准确性，又能利用LLM的生成能力将零散信息组织成结构化内容。常用的向量数据库包括Pinecone、Weaviate、Chroma等。这也解释了为什么"持续喂养"如此重要——知识库的丰富程度直接决定了Agent能挖掘出的素材质量和多样性。

第二只虾：文案生成Agent（小蚊虾）

"小蚊虾"专门从素材池中读取内容，自动生成60秒左右的口播稿（范围在30-120秒）。这个Agent相当于一个专业的短视频文案写手，能够将零散的素材组织成结构化的口播脚本。

文案生成Agent的核心能力依赖于大语言模型的提示工程（Prompt Engineering）。通过精心设计的系统提示词，可以让模型遵循特定的文案结构——比如"钩子开头→痛点共鸣→解决方案→行动号召"的经典短视频脚本框架。同时，通过Few-shot示例（提供几条优秀文案作为参考），模型能够学习创作者的个人风格和语言习惯，确保生成的文案不会千篇一律。控制时长则通常通过限定字数来实现，中文口播大约每秒3-4个字，60秒对应180-240字左右。

第三只虾：视频包装Code Agent

创作者根据口播稿完成录制后，会将素材交给一个Code Agent。这个Agent负责将原始录制视频包装成完整的口播视频——添加字幕、画面排版、特效等后期处理工作。

我来录制

Code Agent是一类能够自主编写和执行代码的AI智能体，这是它区别于普通对话型AI的关键特征。在视频后期处理场景中，Code Agent通常会调用FFmpeg、MoviePy等视频处理库，结合语音识别API（如OpenAI的Whisper模型）自动生成字幕文件，再通过代码将字幕烧录到视频中、调整画面布局、添加转场效果等。相比传统的剪辑软件操作，Code Agent的优势在于可以批量处理、参数化配置——一旦视频模板确定（字体大小、位置、配色方案等），后续视频的包装几乎零边际成本，真正实现了"一次调试，无限复用"。

第四只虾：全平台RPA发布Agent

最后一个环节是通过RPA（机器人流程自动化）实现全平台自动发布，覆盖国内外各大平台。这解决了创作者"每个平台逐一手动发布"的重复劳动问题。

基本上算是

RPA（Robotic Process Automation）是一种通过软件机器人模拟人类操作计算机界面的技术。在多平台发布场景中，RPA工具会模拟用户登录各平台（如抖音、小红书、B站、YouTube、TikTok等）、上传视频、填写标题描述、选择标签分类、设置发布时间等一系列操作。主流的实现方式包括使用浏览器自动化框架（如Playwright、Selenium）编写脚本，或使用专门面向自媒体的分发工具。由于各平台API开放程度不同，RPA通过UI层面的操作绕过了接口限制，但也需要应对平台反爬策略和界面变更带来的维护成本。对于一个覆盖5-10个平台的创作者来说，每条视频的发布操作可能需要30-60分钟，RPA将这一过程压缩到几分钟内自动完成。

工作流的核心逻辑：人机协作而非完全替代

你可能没注意到，这套系统并不是完全无人参与的。创作者仍然需要做几件事：

日常喂养素材：持续将有价值的信息输入系统
亲自录制口播：保持内容的真实感和个人特色
每个环节把关：确保输出质量

直接是自动的扭转

这种设计是合理的。AI擅长处理重复性、结构化的任务，而创作者的个人表达、审美判断和内容把控仍然是不可替代的。这种"人在回路"（Human-in-the-Loop）的设计理念在AI系统中被广泛采用——它既利用了AI的高效执行能力，又通过人类的判断力确保输出质量和方向正确性。完全自动化的内容生产往往会陷入"正确但无趣"的陷阱，而保留人类参与的关键节点，恰恰是保持内容生命力的关键。

整个系统的价值在于将创作者从繁琐的执行层解放出来，让精力聚焦在更有价值的创意和表达上。

对普通创作者的启示

这套工作流给我们几个重要启示：

第一，AI自动化不需要一步到位。 可以先从最痛的环节开始，比如文案生成或多平台发布，逐步搭建完整流水线。这种渐进式的自动化策略在软件工程中被称为"增量交付"，每一步都能产生可验证的价值，降低了试错成本。

第二，个人知识库是核心资产。 素材挖掘Agent的前提是你有持续的输入。没有高质量的"喂养"，再好的Agent也产出不了有价值的内容。这本质上是"垃圾进，垃圾出"（Garbage In, Garbage Out）原则的体现——AI放大的是你已有的积累和思考，而不是凭空创造价值。

第三，多Agent协作是趋势。 单个AI工具解决单点问题，但真正的效率飞跃来自于多个Agent串联形成完整工作流。这也是当前AI应用从"工具"走向"系统"的方向。2024年以来，业界已经出现了大量多Agent编排平台，如Dify、Coze（扣子）、n8n等，它们大幅降低了搭建此类系统的技术门槛，让不会编程的创作者也能通过可视化界面配置自己的Agent工作流。

对于想要尝试的创作者，建议从最简单的环节入手——比如用AI辅助写文案，或者用RPA工具实现多平台分发——逐步验证效果后再扩展到全流程。关键是先跑通一个最小可行的自动化环节，体验到效率提升后，自然会有动力继续扩展。

核心要点

创作者用4个AI Agent组成协作团队，覆盖素材挖掘、文案生成、视频包装和全平台发布四个环节
系统将日产能从2-3条提升到批量产出，核心是将重复性工作自动化
人仍然负责素材喂养、口播录制和质量把关，是人机协作而非完全替代
个人知识库的持续积累是整套系统运转的基础
多Agent串联形成完整工作流是AI应用从工具走向系统的趋势