播客频道 | 免费替代Grok：用OPPO+VO3生成无水印电影级AI视频

最近刷社交媒体，是不是经常看到那种特别炸裂的AI生成视频？什么暴风雨里的灯塔、太空站里的赏金猎人，质量好到让人怀疑是不是真拍的。但一查价格，Grok要每月30美元，很多人就犹豫了。今天我们聊一个特别实用的话题——怎么用Google的免费方案，做出同样质量的AI视频。"}, {"speaker": "guest", "text": "对，这个事情其实挺有意思的。先说Grok吧，它背后的Aurora模型确实厉害，用的是扩散变换器架构，光影处理和镜头运动都很出色。但问题是，30美元一个月，而且生成次数还有上限。你想想，如果你只是想试试水，或者刚开始做内容创作，这个门槛其实挺高的。"}, {"speaker": "host", "text": "嗯，尤其是对那些刚入门的创作者来说，每月30美元就为了生成几段视频，确实不太划算。那你说的这个免费方案具体是什么？"}, {"speaker": "guest", "text": "Google最近推出了一个叫OPPO的平台，你可以理解为一个无代码的AI应用构建器。它的厉害之处在于，你不用写一行代码，用自然语言描述你想要什么，它就能帮你搭出一个完整的应用。而我们要做的，就是用它来搭一个视频生成器，背后接的是Google DeepMind的VO3模型——也就是Veo 3。"}, {"speaker": "host", "text": "等一下，VO3我听说过，它跟之前的视频生成模型比，最大的区别是什么？"}, {"speaker": "guest", "text": "最大的突破是原生音频生成。你看之前的AI视频模型，基本上就是生成画面，声音要另外配。但VO3不一样，它生成视频的同时，会自动生成匹配的环境音效、对话甚至背景音乐。这在业界算是首创级别的能力了。而且它用的是Flow Matching技术，比传统扩散模型效率更高，推理步骤更少，但质量不打折。"}, {"speaker": "host", "text": "这就有意思了。那具体怎么搭呢？听起来好像挺复杂的。"}, {"speaker": "guest", "text": "其实特别简单，整个过程大概两分钟。你用Google账号登录OPPO，点创建新项目，然后——重点来了——给它一个足够详细的提示词，告诉它你要搭什么样的应用。这一步是成败的关键。"}, {"speaker": "host", "text": "你说的提示词，不是生成视频的提示词，而是告诉OPPO怎么搭这个应用的提示词？"}, {"speaker": "guest", "text": "对，这是很多人踩坑的地方。很多人进去就写一句"帮我做个视频生成器"，结果出来的东西七零八落，功能残缺。你得把它当成写需求文档一样，明确告诉它：我要一个视频创意输入框，用来描述场景；我要一个情绪选择器，设定氛围是诡异的还是温暖的；我要一个视觉风格设定，比如照片写实、科幻黑色电影、黑暗奇幻这些选项；还要时长控制，VO3标准是8秒；甚至可以加一个参考图片上传功能。"}, {"speaker": "host", "text": "这个逻辑我理解了。其实就是——你给AI的指令越精确，它的发挥空间越小，反而输出越稳定。模糊的输入只会得到模糊的结果。"}, {"speaker": "guest", "text": "没错，这就是提示词工程的核心思想。大语言模型本质上是条件概率生成器，你给的信息越完整、越结构化，它需要自己"猜"的部分就越少。在OPPO里，提示词实际上就是你的需求规格说明书。"}, {"speaker": "host", "text": "好，那搭好之后呢？用户实际使用的流程是什么样的？"}, {"speaker": "guest", "text": "流程很顺畅。你在界面上填好创意描述、选好氛围和风格、设定时长，如果有参考图片也可以上传。然后应用会自动把这些信息整合成一个优化过的提示词，送进VO3模型，不到一分钟就能拿到一段完整的、带音效的、没有水印的视频。"}, {"speaker": "host", "text": "你们实际测过效果吗？质量到底怎么样？"}, {"speaker": "guest", "text": "测了三个案例。第一个是暴风雨中的灯塔守望者，描述是一个孤独的看守人站在悬崖边，巨浪拍击，一艘发光的船从雾中出现。选的是诡异电影感的氛围，照片级真实的风格。出来的效果——说实话，你不说是AI生成的，很多人会以为是电影片段。"}, {"speaker": "host", "text": "那更复杂的场景呢？比如科幻或者奇幻类的？"}, {"speaker": "guest", "text": "第二个案例就是科幻场景，一个女赏金猎人在坍塌的空间站里慢动作行走，碎片在零重力下漂浮，红色警报灯闪烁。这次还上传了一张角色参考图。这个参考图功能其实很有技术含量，它会通过视觉编码器把图片转成特征向量，然后注入到生成过程中，这样模型不光参考你的文字描述，还会从图片里提取色调、构图、光照这些信息。出来的结果在动作、光影和音效上都相当到位。"}, {"speaker": "host", "text": "第三个呢？"}, {"speaker": "guest", "text": "第三个更夸张——一条由风暴云和闪电构成的巨龙，黄昏时分俯冲向中世纪堡垒，翼展遮蔽残阳，村民四散奔逃。选的是黑暗奇幻风格。这种复杂场景其实很考验模型的运动一致性和物理真实感，但VO3处理得很好，确实是电影级的水准。"}, {"speaker": "host", "text": "所以总结一下对比的话——Grok每月30美元，有水印，有生成次数限制；OPPO加VO3完全免费，无水印，无限次生成，视频质量和音效都是同一个级别。唯一的区别就是你需要花两分钟搭一下这个应用。"}, {"speaker": "guest", "text": "对，公平地说，Grok确实是个好工具。但如果你还没付费，现在真的不用急着掏钱。而且你知道吗，Google之所以免费开放这个能力，其实是在用模型换生态，就跟当年免费推Gmail和Google Docs一个逻辑。2025年AI视频领域就是一场军备竞赛，OpenAI的Sora、Runway的Gen-3、快手的Kling都在打，免费策略正在成为争夺用户的重要手段。"}, {"speaker": "host", "text": "所以对于我们普通用户来说，其实是受益者。"}, {"speaker": "guest", "text": "完全是。而且我想强调一点——不管你用哪个工具，提示词工程的能力才是真正的核心竞争力。工具会换代，模型会迭代，但你写好提示词的能力是可以迁移的。与其纠结选Grok还是VO3，不如花时间把提示词写好。"}, {"speaker": "host", "text": "说得好。你与电影级AI内容之间的距离，可能真的就是一个好提示词和两分钟的搭建时间。工具免费了，剩下的就看创意了。"} ],

免费替代Grok：用OPPO+VO3生成无水印电影级AI视频

更多播客

AI热点风向标·06月07日午间版

AI热点风向标·06月07日早间版

每日AI新鲜事·06月07日早间播报