最近刷社交媒体,是不是经常看到那种特别炸裂的AI生成视频?什么暴风雨里的灯塔、太空站里的赏金猎人,质量好到让人怀疑是不是真拍的。但一查价格,Grok要每月30美元,很多人就犹豫了。今天我们聊一个特别实用的话题——怎么用Google的免费方案,做出同样质量的AI视频。"},
{"speaker": "guest", "text": "对,这个事情其实挺有意思的。先说Grok吧,它背后的Aurora模型确实厉害,用的是扩散变换器架构,光影处理和镜头运动都很出色。但问题是,30美元一个月,而且生成次数还有上限。你想想,如果你只是想试试水,或者刚开始做内容创作,这个门槛其实挺高的。"},
{"speaker": "host", "text": "嗯,尤其是对那些刚入门的创作者来说,每月30美元就为了生成几段视频,确实不太划算。那你说的这个免费方案具体是什么?"},
{"speaker": "guest", "text": "Google最近推出了一个叫OPPO的平台,你可以理解为一个无代码的AI应用构建器。它的厉害之处在于,你不用写一行代码,用自然语言描述你想要什么,它就能帮你搭出一个完整的应用。而我们要做的,就是用它来搭一个视频生成器,背后接的是Google DeepMind的VO3模型——也就是Veo 3。"},
{"speaker": "host", "text": "等一下,VO3我听说过,它跟之前的视频生成模型比,最大的区别是什么?"},
{"speaker": "guest", "text": "最大的突破是原生音频生成。你看之前的AI视频模型,基本上就是生成画面,声音要另外配。但VO3不一样,它生成视频的同时,会自动生成匹配的环境音效、对话甚至背景音乐。这在业界算是首创级别的能力了。而且它用的是Flow Matching技术,比传统扩散模型效率更高,推理步骤更少,但质量不打折。"},
{"speaker": "host", "text": "这就有意思了。那具体怎么搭呢?听起来好像挺复杂的。"},
{"speaker": "guest", "text": "其实特别简单,整个过程大概两分钟。你用Google账号登录OPPO,点创建新项目,然后——重点来了——给它一个足够详细的提示词,告诉它你要搭什么样的应用。这一步是成败的关键。"},
{"speaker": "host", "text": "你说的提示词,不是生成视频的提示词,而是告诉OPPO怎么搭这个应用的提示词?"},
{"speaker": "guest", "text": "对,这是很多人踩坑的地方。很多人进去就写一句"帮我做个视频生成器",结果出来的东西七零八落,功能残缺。你得把它当成写需求文档一样,明确告诉它:我要一个视频创意输入框,用来描述场景;我要一个情绪选择器,设定氛围是诡异的还是温暖的;我要一个视觉风格设定,比如照片写实、科幻黑色电影、黑暗奇幻这些选项;还要时长控制,VO3标准是8秒;甚至可以加一个参考图片上传功能。"},
{"speaker": "host", "text": "这个逻辑我理解了。其实就是——你给AI的指令越精确,它的发挥空间越小,反而输出越稳定。模糊的输入只会得到模糊的结果。"},
{"speaker": "guest", "text": "没错,这就是提示词工程的核心思想。大语言模型本质上是条件概率生成器,你给的信息越完整、越结构化,它需要自己"猜"的部分就越少。在OPPO里,提示词实际上就是你的需求规格说明书。"},
{"speaker": "host", "text": "好,那搭好之后呢?用户实际使用的流程是什么样的?"},
{"speaker": "guest", "text": "流程很顺畅。你在界面上填好创意描述、选好氛围和风格、设定时长,如果有参考图片也可以上传。然后应用会自动把这些信息整合成一个优化过的提示词,送进VO3模型,不到一分钟就能拿到一段完整的、带音效的、没有水印的视频。"},
{"speaker": "host", "text": "你们实际测过效果吗?质量到底怎么样?"},
{"speaker": "guest", "text": "测了三个案例。第一个是暴风雨中的灯塔守望者,描述是一个孤独的看守人站在悬崖边,巨浪拍击,一艘发光的船从雾中出现。选的是诡异电影感的氛围,照片级真实的风格。出来的效果——说实话,你不说是AI生成的,很多人会以为是电影片段。"},
{"speaker": "host", "text": "那更复杂的场景呢?比如科幻或者奇幻类的?"},
{"speaker": "guest", "text": "第二个案例就是科幻场景,一个女赏金猎人在坍塌的空间站里慢动作行走,碎片在零重力下漂浮,红色警报灯闪烁。这次还上传了一张角色参考图。这个参考图功能其实很有技术含量,它会通过视觉编码器把图片转成特征向量,然后注入到生成过程中,这样模型不光参考你的文字描述,还会从图片里提取色调、构图、光照这些信息。出来的结果在动作、光影和音效上都相当到位。"},
{"speaker": "host", "text": "第三个呢?"},
{"speaker": "guest", "text": "第三个更夸张——一条由风暴云和闪电构成的巨龙,黄昏时分俯冲向中世纪堡垒,翼展遮蔽残阳,村民四散奔逃。选的是黑暗奇幻风格。这种复杂场景其实很考验模型的运动一致性和物理真实感,但VO3处理得很好,确实是电影级的水准。"},
{"speaker": "host", "text": "所以总结一下对比的话——Grok每月30美元,有水印,有生成次数限制;OPPO加VO3完全免费,无水印,无限次生成,视频质量和音效都是同一个级别。唯一的区别就是你需要花两分钟搭一下这个应用。"},
{"speaker": "guest", "text": "对,公平地说,Grok确实是个好工具。但如果你还没付费,现在真的不用急着掏钱。而且你知道吗,Google之所以免费开放这个能力,其实是在用模型换生态,就跟当年免费推Gmail和Google Docs一个逻辑。2025年AI视频领域就是一场军备竞赛,OpenAI的Sora、Runway的Gen-3、快手的Kling都在打,免费策略正在成为争夺用户的重要手段。"},
{"speaker": "host", "text": "所以对于我们普通用户来说,其实是受益者。"},
{"speaker": "guest", "text": "完全是。而且我想强调一点——不管你用哪个工具,提示词工程的能力才是真正的核心竞争力。工具会换代,模型会迭代,但你写好提示词的能力是可以迁移的。与其纠结选Grok还是VO3,不如花时间把提示词写好。"},
{"speaker": "host", "text": "说得好。你与电影级AI内容之间的距离,可能真的就是一个好提示词和两分钟的搭建时间。工具免费了,剩下的就看创意了。"}
],