播客频道 | AI电影制作入门：从提示词到成片的全流程实战指南

今天聊一个我觉得特别有意思的话题——用AI拍电影。你看啊，2026年了，我身边越来越多做内容的朋友开始尝试用AI工具做短片，有些成片质量说实话真的让我挺惊讶的。但我也发现，很多人其实卡在第一步就不知道怎么往下走了。所以今天请来的嘉宾，在AI影视制作这块有非常丰富的实战经验，我们来聊聊从零开始，怎么用AI做出一部有模有样的电影短片。对，你说的这个现象特别真实。其实现在工具已经很成熟了，像即梦AI、豆包AI这些，技术门槛真的降了很多。但很多人上手就直接去生成画面，结果出来的东西要么画面很惊艳但串不成故事，要么故事有了但画面质量参差不齐。核心问题是什么呢？是缺一套系统的方法论。那我们就从最基础的开始聊吧。我知道AI生成画面，第一步就是写提示词，也就是Prompt。这个东西说简单也简单，说难也难，你觉得写好提示词的关键是什么？嗯，提示词其实就是你跟AI沟通的语言。你可以把它理解成——你是导演，AI是摄影师加美术团队，你得把你脑子里的画面精确地描述出来。这里面有个万能框架，我一直在用，六个维度：风格、视角、主体、背景、细节、光影。这六个维度能展开说说吗？比如风格这块，我看很多人会写什么OC渲染、UE5质感，这些到底是什么意思？好问题。OC渲染就是Octane Render，一个基于GPU的物理级光线追踪渲染器，影视特效行业用得很多。你在提示词里写上它，AI就会往那个方向靠——生成的画面会有非常精确的光照、材质反射，看起来特别真实。UE5质感呢，来自虚幻引擎5，就是做3A游戏那个引擎，它的画面特点是高精度建模加影视级光照。你加上这些关键词，生成的画面就会有一种大片感，类似游戏过场动画的品质。哦我明白了，其实这些关键词本质上是在告诉AI——我要什么级别的画面品质。对，就是这个意思。然后视角就是运镜指令，特写、中景、全景、俯拍这些；主体是你的人物描述，包括服饰、动作、表情；背景是场景环境；细节是纹理材质；光影是光线方向和色调氛围。六个维度都覆盖到，基本就能保障画面质量了。那学习提示词有没有什么捷径？总不能全靠自己摸索吧。捷径就是逆向学习。比如即梦AI的首页有大量优秀作品，每张都附带了完整的提示词。你看到一张喜欢的图，直接看它的提示词是怎么写的，拆解结构，把有用的部分复制过来，再根据自己的需求调整。这比从零开始写高效太多了。好，提示词搞定了，接下来就是剧本的问题了。你不能光有漂亮画面，得有故事对吧。没错，这一步我推荐用豆包AI来辅助。但注意，不是让AI直接写剧本，而是分两步走。第一步，让AI帮你梳理故事素材。比如你要做一个项羽乌江自刎的历史短片，你就跟豆包说：给我虞姬自刎和项羽乌江自刎的详细故事，800字左右，简洁突出重点。它会给你一个结构很清晰的叙事脉络。然后第二步呢？第二步是关键——把故事拆成分镜表。你要跟AI说得很具体：把故事拆成大概12个分镜头，每个分镜要包含运镜指令、故事内容、画面描述、旁白台词、音效和音乐风格，而且要把每个分镜转化成文生图和图生视频的提示词，还要给出主要角色的人物提示词，包括服饰特征、妆造这些。等等，为什么是12个分镜？这个数字有讲究吗？有的。你看，即梦AI生成的视频片段大概每段5到15秒，按平均10秒算，12个分镜就是120秒，差不多两分钟，这是一个短片的合理时长。所以分镜数量其实是倒推出来的，不是拍脑袋定的。这个思路很实用。那分镜表有了之后，进入实际制作阶段，我听说最头疼的问题是人物一致性？哎，你说到痛点了。这确实是目前AI影视制作最棘手的技术瓶颈。原因是什么呢？扩散模型每次生成画面都是从随机噪声开始的，它没有跨帧的记忆能力。哪怕你用完全一样的提示词，不同的随机种子就会让同一个角色长得不一样，甚至换衣服、换脸。你想想，项羽在第一个镜头是方脸，第三个镜头变圆脸了，观众直接出戏。那现在有什么解决办法吗？办法有几种。一是用参考图锁定角色外貌，二是用IP-Adapter、InstantID这类技术把特定人脸特征注入生成过程，三是用LoRA微调让模型学习特定角色的视觉特征，还有就是即梦AI本身也有内置的角色一致性功能。但说实话，在复杂的多角色多场景叙事里，完美一致性还是需要大量人工筛选和后期修正的。嗯，所以AI不是万能的，人的判断还是不可少。那画面生成之后呢？怎么让静态图片动起来？这就进入视频动画生成阶段了。即梦AI有图生视频功能，可以把静态画面转成动态片段。然后人物动作这块，可以用CDance模型这类工具，它的原理是从参考视频里提取人体骨骼关键点，再把这些运动信息迁移到AI生成的角色上。这样你就能让角色做出比较复杂的动作，比如武打、舞蹈这些。最后的剪辑阶段呢？我猜不只是简单地把片段拼在一起吧。对，剪辑阶段主要四个环节。第一是片段拼接和节奏把控，根据分镜表调整时长和衔接；第二是配音旁白；第三是音效配乐；第四个环节很多人容易忽略——唇形同步。就是角色说话时口型要跟配音对上。现在有Wav2Lip、SadTalker这些工具可以根据音频自动生成口型动画，但因为AI生成的人脸本身帧间就有微妙差异，叠加唇形驱动后有时候会出现面部扭曲，就是所谓的恐怖谷效应，所以通常需要多轮优化。聊到这里，我有一个感受——虽然AI把技术门槛降得很低，但要做出真正好的作品，需要的能力一点都不少。其实你说到了最核心的一点。AI解放的是技术执行层面的能力，以前你得会建模、会打光、会剪辑，现在这些AI都能帮你做。但什么东西AI帮不了你呢？叙事能力、审美判断、对细节的把控。你得知道这个镜头为什么要用特写而不是全景，这段配乐为什么要在这里转调，这个角色的表情应该是隐忍还是爆发。这些决策，只有人能做。说得好。所以万能提示词框架给了你一个起点，AI帮你搭了叙事骨架，但怎么让故事真正打动人，这还是创作者自己的功夫。AI是工具，不是导演——真正的导演，是坐在屏幕前做决策的那个人。

AI电影制作入门：从提示词到成片的全流程实战指南

更多播客

AI热点风向标·06月07日午间版

AI热点风向标·06月07日早间版

每日AI新鲜事·06月07日早间播报