李博!上周我们组有个实习生,充了即梦会员,结果对着提示词输入框发呆了一下午,最后写了句'一个女孩在雨里走',生成出来那个效果……
哈哈哈,让我猜猜,是不是像手机前置摄像头拍的那种?
比那还惨,人脸都是糊的。但你说这事也不能怪她,谁天生就会写什么'浅景深''逆光'啊。
诶你说到这个,我最近正好在玩一套方法,就是专门解决这个问题的。核心思路特简单——用AI来写AI的提示词。
等会儿,套娃是吧?用一个AI帮另一个AI干活?
对,但你别觉得这是脱裤子放屁。你想啊,像即梦、可灵、Runway这些视频生成工具,底层都是扩散模型,它是从随机噪声里一步步'去噪'来生成画面的。
提示词在这个过程中相当于导航信号。你给的描述越精确,模型在高维语义空间里定位就越准。简单说,'女孩在雨中'和包含镜头参数、光影描述的专业提示词,差距就像你用手指个大概方向,和给一个精确GPS坐标。
这个类比我懂了。那你说的方法具体怎么操作?
用Google AI Studio,就是谷歌官方的模型实验平台,免费的。关键是它有一个叫System Instructions的功能,也就是系统指令。
系统指令跟我直接在聊天里说'请你扮演一个角色'有啥区别?
区别大了!你在聊天里说的角色设定,聊着聊着模型就忘了,约束力会衰减。但系统指令不一样,它在Transformer架构里优先级最高,放在注意力机制的最前端,对后续所有生成内容都有持续约束。
就是说不管我后面怎么聊,它都不会'出戏'?
对,永远在角色里。
真的假的,这也太好用了吧!那系统指令具体写什么?
这是最关键的一步。你要告诉Gemini它是一个专业的AI视频提示词工程师,然后规定输出必须覆盖七个维度。
画面主体、场景环境、镜头语言、光影设计、艺术风格、色彩基调、氛围情绪。这七个维度一配齐,出来的提示词就是电影级的。
等等,镜头语言我就不太懂了,什么推拉摇移跟……
你们产品经理就知道用户体验,基本影视素养得补补课啊。
得了吧,你快说!
哈哈好好好。推就是镜头向主体靠近,拉是远离,摇是固定位置旋转,移是平行移动,跟是跟着人走。这些术语在AI视频模型的训练数据里大量出现,你用了它们,模型就能精准理解你要什么效果。
所以重点不是我懂不懂,是模型懂。那我只要让Gemini帮我写出来就行了?
就是这个意思!你只需要输入大白话,比如'朋克风格的小女孩在雨中吃面',Gemini直接给你输出一大段专业提示词,什么霓虹灯反光、浅景深、手持摄影、胶片颗粒感全给你安排上。
我靠,这不就是给每个普通人配了一个影视专业的助理吗?
本质上就是个翻译问题——把你脑子里模糊的画面感,翻译成模型能理解的精确坐标。
那我追问一个实际问题啊。即梦好像更吃中文提示词,Runway更吃英文,这个怎么处理?
好问题。这跟各平台训练数据的语言分布有关。你可以在系统指令里直接指定输出语言,比如给即梦用就写中文输出,给Runway用就写英文。甚至可以建不同的模板,一键切换。
模板库这个思路好,我可以存一套日系动漫风格的、一套纪录片风格的……
没错,而且还有个杀手级功能——多轮对话迭代。第一次生成不满意,你就说'光线再暗点''换成俯拍',它会在原来基础上改,不是从头来。
这不就是我们做产品迭代的思路嘛,快速试错快速调整。
对,而且你还可以让它按分镜头脚本格式输出,每个镜头单独编号、标注时长和转场方式,生成完一个个拼起来就是完整短片。
等会儿让我想想……就是说一个完全不懂影视的人,靠这套流程,理论上能做出有叙事结构的短片?
理论上,是的。门槛被压到了只需要有创意就行。
我突然觉得这件事挺有意思的。以前大家总说AI降低了创作门槛,但提示词本身又变成了新门槛。现在用AI解决AI的门槛问题,这个循环还挺优雅的。
嗯,说到底工具就是工具,最终比的还是谁脑子里的创意更好。提示词这个事,不应该成为拦路虎。
行,我回去就让那个实习生试试。四步嘛——打开AI Studio、选模型、配系统指令、输入大白话。这我能记住。
记得选Gemini 2.5 Pro啊,模型越强翻译越准。
知道了知道了,李老师。