最近刷短视频的时候,你有没有发现一种特别火的内容形式——AI漫剧?就是那种画面精致得像3D动画电影,但其实是一个人用AI工具做出来的。我身边好多人都想试,但一上手就懵了,不知道从哪儿开始。今天正好请到了这方面的专家,来帮我们把整个流程彻底拆清楚。
对,这个确实是现在AIGC领域特别热的一个方向。很多人的第一反应是打开一个生图工具就开始画,但其实这是最容易踩的坑。做出来的画面可能单张很好看,但串在一起完全没有叙事逻辑,观众看不下去。
所以第一步其实不是画画,而是写故事?
没错,第一步是用大语言模型来搭建你的创作骨架。比如DeepSeek、豆包、Gemini这些,你给它一个身份设定,比如说'你是一位中国神话动画编剧',然后告诉它你想要什么主题、大概多长。这里有个实用建议——个人创作者的话,先控制在一分钟左右,别一上来就搞五分钟的大片,制作难度会指数级上升。
嗯,这个我理解。但光有剧本好像还不够?
对,剧本只是故事本身,你还需要把它转化成制作脚本。就是告诉AI:帮我把这个剧本拆成一个个镜头,每个镜头要标注镜号、景别、运镜方式、旁白内容。这一步特别关键,因为景别——远景、中景、近景——直接决定了你后面生成图片的方向。远景交代环境,中景展现人物关系,近景聚焦情绪,这是影视制作最基础的视觉语言。
不过AI给的运镜建议,是不是有时候太理想化了?比如它可能写个'急速摇切',但AI视频模型根本做不出来。
你说到点子上了!当前的AI视频生成模型对简单运镜理解得还不错,比如缓慢推进、平移,但复杂的组合运镜确实控制不了。所以脚本不是一次性写完就不动了,你得在实际制作中不断回来调整。其实这是AI创作的真实状态——持续迭代,而不是一步到位。第三步就是让AI根据脚本生成人物设定,每个角色的外貌、服装、特征描述,这些描述后面直接当生图的提示词用。
好,故事和人物都有了,接下来就是大家最期待的环节——生成画面。这一步你怎么操作?
这一步我特别推荐一个策略,就是多模型对比出图。你可以用一站式的AI平台,同时调用即梦、Flux、Midjourney这些不同模型来生成同一个镜头的画面,然后从里面挑最好的。为什么要这样做呢?因为不同模型的技术架构和训练数据不一样,风格偏好差异很大。比如Flux在写实质感和光影上很强,Midjourney的艺术化处理很有特色,即梦系列对东方美学和国漫风格做了专项优化。
所以本质上就是利用不同模型的风格差异和随机性,来最大化获得理想画面的概率。有点像抽卡的感觉。
哈哈,对,圈子里就叫'抽卡'。因为扩散模型生成过程中有随机噪声,同样的提示词每次出来的结果都不一样。多模型多次生成,就是在增加你抽到'SSR'的概率。还有一个实用经验我要分享——不需要单独预设场景图。直接把人物参考图上传,用提示词描述场景,让AI自动完成人物和场景的融合,效果更自然。
这里面有没有什么容易踩的坑?
有一个很典型的。比如你想要一个超广角镜头,但参考图里人物占比很大,AI为了保持主体一致性,会让人物在画面里依然很大,'超广角'就失效了。解决方法是在提示词里明确写'主体图占比很小',用自然语言去约束AI的生成逻辑。还有个特别有意思的例子——如果你想做'人物瞳孔中隐约出现另一个角色'这种创意镜头,'隐约'这两个字至关重要。没有这个修饰词,AI会把人物图片生硬地塞进瞳孔里,效果特别假。
这其实就是提示词工程里的技巧了,用程度副词来控制生成的强度和融合方式。
对,非常精准的理解。
好,图片选出来了,是不是就可以直接做视频了?
等等,这中间还有一步很多人会忽略,但它真的决定成败——就是用ComfyUI做图片高清放大。AI生成的图片直接用于视频制作,清晰度往往不够。图片越清晰,生成的视频质感就越好,这是正相关的。高清放大的原理不是简单地放大像素,而是用深度学习模型去智能补充高频细节,比如皮肤纹理、发丝、睫毛这些。放大后的效果跟原图比,差距非常明显。
所以每一张关键帧都要走这个流程?
对,先从多张生成结果里挑最满意的一张,再放大处理。这一步不能省。
好,关键帧都准备好了,接下来视频生成是不是反而简单了?
你看,这就是这套流程的精髓——把精力花在关键帧质量上,视频生成真的就是水到渠成。选模型的时候注意一点:不同模型对首帧和尾帧的支持不同。比如可灵2.6同时支持首帧和尾帧设置,这意味着你可以精确控制视频从A画面过渡到B画面;而Sora2 Pro只支持首帧,结束画面就有不确定性。动态提示词写简洁就行,比如'仙鹤在空中扇动翅膀快速飞翔',不用像画面提示词那样写一大段。
最后一步就是剪辑配音了。这部分有什么特别的技巧吗?
剪辑本身在剪映里完成,把所有5到12秒的短视频片段按剧情拼接,音效用剪映自带的素材库就够了。但配音这块我要重点说一个巧妙的方法——利用可灵2.6的口型同步能力。你在生成视频的时候,直接把角色台词写进提示词里,比如'少女怒斥说:你好大的胆子,三息之内滚出此地',模型会自动生成带口型匹配和情感语气的配音。这比传统的先配音再对口型的方案自然太多了,因为它是端到端一次性生成的,避免了多模块串联的误差累积。
这确实很巧妙。其实回顾整个流程,我觉得最核心的一个认知是——没有任何单一工具能搞定所有环节。大语言模型负责剧本,多个图片模型负责出图,ComfyUI负责放大,视频模型负责动效,剪映负责最终合成。这是一种模块化的工具组合思维。
对,这其实是当前AIGC创作最重要的趋势。每个环节选最合适的工具,通过标准化的中间产物——文本、图片、视频片段——把它们串起来。掌握这种模块化思维比精通任何单一工具都重要,因为工具会不断迭代,可能半年后我们用的模型全换了,但这套工作流的底层逻辑是相通的。
说得好。所以想入门AI漫剧的朋友,与其纠结该学哪个工具,不如先把这五步的逻辑理清楚:剧本、关键帧、高清放大、视频生成、剪辑配音。工具会变,思路不变。