播客频道 | AI漫剧制作全流程：从剧本到成片的5步实战指南

最近刷短视频的时候，你有没有发现一种特别火的内容形式——AI漫剧？就是那种画面精致得像3D动画电影，但其实是一个人用AI工具做出来的。我身边好多人都想试，但一上手就懵了，不知道从哪儿开始。今天正好请到了这方面的专家，来帮我们把整个流程彻底拆清楚。对，这个确实是现在AIGC领域特别热的一个方向。很多人的第一反应是打开一个生图工具就开始画，但其实这是最容易踩的坑。做出来的画面可能单张很好看，但串在一起完全没有叙事逻辑，观众看不下去。所以第一步其实不是画画，而是写故事？没错，第一步是用大语言模型来搭建你的创作骨架。比如DeepSeek、豆包、Gemini这些，你给它一个身份设定，比如说'你是一位中国神话动画编剧'，然后告诉它你想要什么主题、大概多长。这里有个实用建议——个人创作者的话，先控制在一分钟左右，别一上来就搞五分钟的大片，制作难度会指数级上升。嗯，这个我理解。但光有剧本好像还不够？对，剧本只是故事本身，你还需要把它转化成制作脚本。就是告诉AI：帮我把这个剧本拆成一个个镜头，每个镜头要标注镜号、景别、运镜方式、旁白内容。这一步特别关键，因为景别——远景、中景、近景——直接决定了你后面生成图片的方向。远景交代环境，中景展现人物关系，近景聚焦情绪，这是影视制作最基础的视觉语言。不过AI给的运镜建议，是不是有时候太理想化了？比如它可能写个'急速摇切'，但AI视频模型根本做不出来。你说到点子上了！当前的AI视频生成模型对简单运镜理解得还不错，比如缓慢推进、平移，但复杂的组合运镜确实控制不了。所以脚本不是一次性写完就不动了，你得在实际制作中不断回来调整。其实这是AI创作的真实状态——持续迭代，而不是一步到位。第三步就是让AI根据脚本生成人物设定，每个角色的外貌、服装、特征描述，这些描述后面直接当生图的提示词用。好，故事和人物都有了，接下来就是大家最期待的环节——生成画面。这一步你怎么操作？这一步我特别推荐一个策略，就是多模型对比出图。你可以用一站式的AI平台，同时调用即梦、Flux、Midjourney这些不同模型来生成同一个镜头的画面，然后从里面挑最好的。为什么要这样做呢？因为不同模型的技术架构和训练数据不一样，风格偏好差异很大。比如Flux在写实质感和光影上很强，Midjourney的艺术化处理很有特色，即梦系列对东方美学和国漫风格做了专项优化。所以本质上就是利用不同模型的风格差异和随机性，来最大化获得理想画面的概率。有点像抽卡的感觉。哈哈，对，圈子里就叫'抽卡'。因为扩散模型生成过程中有随机噪声，同样的提示词每次出来的结果都不一样。多模型多次生成，就是在增加你抽到'SSR'的概率。还有一个实用经验我要分享——不需要单独预设场景图。直接把人物参考图上传，用提示词描述场景，让AI自动完成人物和场景的融合，效果更自然。这里面有没有什么容易踩的坑？有一个很典型的。比如你想要一个超广角镜头，但参考图里人物占比很大，AI为了保持主体一致性，会让人物在画面里依然很大，'超广角'就失效了。解决方法是在提示词里明确写'主体图占比很小'，用自然语言去约束AI的生成逻辑。还有个特别有意思的例子——如果你想做'人物瞳孔中隐约出现另一个角色'这种创意镜头，'隐约'这两个字至关重要。没有这个修饰词，AI会把人物图片生硬地塞进瞳孔里，效果特别假。这其实就是提示词工程里的技巧了，用程度副词来控制生成的强度和融合方式。对，非常精准的理解。好，图片选出来了，是不是就可以直接做视频了？等等，这中间还有一步很多人会忽略，但它真的决定成败——就是用ComfyUI做图片高清放大。AI生成的图片直接用于视频制作，清晰度往往不够。图片越清晰，生成的视频质感就越好，这是正相关的。高清放大的原理不是简单地放大像素，而是用深度学习模型去智能补充高频细节，比如皮肤纹理、发丝、睫毛这些。放大后的效果跟原图比，差距非常明显。所以每一张关键帧都要走这个流程？对，先从多张生成结果里挑最满意的一张，再放大处理。这一步不能省。好，关键帧都准备好了，接下来视频生成是不是反而简单了？你看，这就是这套流程的精髓——把精力花在关键帧质量上，视频生成真的就是水到渠成。选模型的时候注意一点：不同模型对首帧和尾帧的支持不同。比如可灵2.6同时支持首帧和尾帧设置，这意味着你可以精确控制视频从A画面过渡到B画面；而Sora2 Pro只支持首帧，结束画面就有不确定性。动态提示词写简洁就行，比如'仙鹤在空中扇动翅膀快速飞翔'，不用像画面提示词那样写一大段。最后一步就是剪辑配音了。这部分有什么特别的技巧吗？剪辑本身在剪映里完成，把所有5到12秒的短视频片段按剧情拼接，音效用剪映自带的素材库就够了。但配音这块我要重点说一个巧妙的方法——利用可灵2.6的口型同步能力。你在生成视频的时候，直接把角色台词写进提示词里，比如'少女怒斥说：你好大的胆子，三息之内滚出此地'，模型会自动生成带口型匹配和情感语气的配音。这比传统的先配音再对口型的方案自然太多了，因为它是端到端一次性生成的，避免了多模块串联的误差累积。这确实很巧妙。其实回顾整个流程，我觉得最核心的一个认知是——没有任何单一工具能搞定所有环节。大语言模型负责剧本，多个图片模型负责出图，ComfyUI负责放大，视频模型负责动效，剪映负责最终合成。这是一种模块化的工具组合思维。对，这其实是当前AIGC创作最重要的趋势。每个环节选最合适的工具，通过标准化的中间产物——文本、图片、视频片段——把它们串起来。掌握这种模块化思维比精通任何单一工具都重要，因为工具会不断迭代，可能半年后我们用的模型全换了，但这套工作流的底层逻辑是相通的。说得好。所以想入门AI漫剧的朋友，与其纠结该学哪个工具，不如先把这五步的逻辑理清楚：剧本、关键帧、高清放大、视频生成、剪辑配音。工具会变，思路不变。

AI漫剧制作全流程：从剧本到成片的5步实战指南

更多播客

AI热点风向标·06月07日午间版

AI热点风向标·06月07日早间版

每日AI新鲜事·06月07日早间播报