Gemini Omni视频生成深度测评：与Seedance 2.0实测对比

前言

谷歌在5月20日举办了年度I/O大会，发布了一系列重磅更新，其中最受创作者关注的莫过于Gemini Omni视频生成模型。AI视频生成是当前生成式AI领域最具挑战性的方向之一——与图像生成不同，视频生成需要在保持单帧画质的同时，确保帧与帧之间的时间一致性（temporal consistency），避免出现闪烁、形变等伪影。目前主流的视频生成技术路线包括基于扩散模型（Diffusion Model）的方案和基于Transformer架构的方案，谷歌的Omni模型和字节跳动旗下的Seedance 2.0都代表了各自技术路线的最新进展。

本文将结合I/O大会核心内容，对Omni模型进行深度测评，并与国产模型Seedance 2.0进行对比分析，帮助大家了解两款AI视频生成模型的实际表现差异。

Gemini Omni视频生成模型使用指南

基本门槛与费用

Omni模型需要Gemini Pro及以上会员才能使用。开通Pro会员后，每月获得1000点积分，生成一条720p视频大约消耗20点积分。使用平台是谷歌的Flow（非Gemini主界面），用户需要登录账号创建项目。

Flow是谷歌专门为创意工作者打造的AI创作平台，独立于Gemini主对话界面运行，其设计理念类似于Adobe的Creative Cloud生态，但以AI生成为核心。在Flow平台中，你可以选择上传图片、使用NobDunner创建固定人物形象（这是平台内置的角色一致性工具，旨在解决AI视频生成中"同一角色在不同镜头中外貌不一致"这一长期痛点），或对场景进行创建。创建视频时需要点击"选择视频"，设置关键帧（注意：最新模型不支持关键帧，仅3.1版本支持）、添加素材、输入提示词、选择画面比例（竖屏/横屏）和生成数量。这里提到的"关键帧"（Keyframe）概念源自传统动画和视频编辑领域，指的是定义动画起止状态的关键画面，AI模型会自动补全关键帧之间的过渡画面（即"插值"）。

Flow平台操作界面

实际使用体验

有意思的是，Omni目前存在严重的算力不足问题。实测中，在不同时段（10点、9点、7点）多次尝试，仅在早上7点成功生成了几个视频。如果排队失败，建议等几个小时再试，或者更换IP地址。这对于有时效性需求的创作者来说是一个明显的短板。

这一算力瓶颈并非个例，而是整个AI视频生成行业面临的共性挑战。视频生成的计算量远超文本和图像生成——生成一段10秒的720p视频，其计算开销可能是生成一张同分辨率图片的数百倍，涉及GPU显存占用、推理时间和并发处理能力等多重瓶颈。即便是拥有全球顶级算力基础设施的谷歌，在面对大量用户同时请求时也会出现排队现象。这也解释了为什么视频生成服务普遍采用积分制——通过经济手段调控算力分配。

深度测评：Omni vs Seedance 2.0

测试一：毛发质感（猫咪生成）

通过提示词生成猫咪视频的对比中，Omni模型生成的猫毛发不太自然，整体质感偏硬。而Seedance 2.0生成的猫看起来更加自然，毛发的层次感和光影表现更为出色。在动物毛发这类细节渲染上，Seedance 2.0明显占优。

毛发渲染一直是计算机图形学中的经典难题，因为毛发具有极高的几何复杂度（一只猫身上可能有数千万根毛发）和复杂的光学特性（半透明、各向异性散射等）。对于AI视频生成模型而言，能否准确还原毛发的蓬松感、光泽度和运动时的物理表现，是衡量模型细节生成能力的重要标尺。

测试二：首尾帧控制（篮球场景）

这是一个较为复杂的测试场景：首帧是篮球场全景，尾帧是一个人在转球，要求摄影机快速旋转下降到打篮球的人物。

首尾帧控制（Start-End Frame Control）是衡量视频生成模型可控性的核心指标之一。在实际影视制作中，导演和摄影师需要精确控制镜头的起始画面和结束画面，中间的运镜过程则体现创作意图。对于AI视频模型而言，能否根据给定的首帧和尾帧图片，自动生成物理合理、运动流畅的过渡视频，直接决定了模型在专业创作场景中的实用价值。这项能力的背后需要模型具备对三维空间关系、摄像机运动轨迹和物体运动学的深层理解。

Omni表现： 由于Omni本身没有首尾帧功能，测试者通过edit功能分别设置首帧和尾帧图片来模拟。结果显示首帧确定后，中间仅有非常短的旋转过渡，尾帧能够停住，但整体运镜感不强。

Seedance 2.0表现： 旋转过程非常有镜头感，运镜流畅自然，最后准确停留在球旋转的尾帧画面上。

篮球场景旋转镜头对比

在镜头运动控制方面，Seedance 2.0的表现明显优于Omni，尤其是复杂运镜的流畅度和电影感。

测试三：草图生成（鱼的动画）

测试内容是上传一张鱼的草图，要求模型参考草图中鱼的形象和游动轨迹，生成鱼在海中游动、跃出水面再潜入水中的写实风格视频。

两个模型在这个测试中表现都不理想：

Omni： 画面中突然出现箭头标记（可能误读了草图中的轨迹标注），虽然鱼的运动顺序基本正确
Seedance 2.0： 自行添加了额外的鱼，四个生成结果中仅有一个没有出现箭头

两个模型在理解草图意图方面都存在明显不足，都需要多次生成（"抽卡"）才能获得满意结果。草图到视频的生成之所以困难，是因为模型需要同时完成两项任务：一是理解草图中的语义信息（哪些线条代表物体轮廓，哪些代表运动轨迹标注），二是将简笔画风格转化为写实风格的视觉内容。这种跨域转换对模型的多模态理解能力提出了极高要求。

生成效果对比总结

测评总结

综合来看，Omni目前存在算力不足、排队困难的问题，使用门槛较高且体验不稳定。在生成质量上，Seedance 2.0在毛发质感、镜头运动控制等方面表现更优。对于国内创作者而言，Seedance 2.0无论是在可用性还是生成效果上，都是当前更实用的选择。

Google I/O大会核心更新速览

Gemini 3.5模型升级

谷歌发布了Gemini 3.5及3.5 Flash两个模型：

性价比提升： 比3.1版本更便宜
编程能力增强： Coding评分比3.1提升6个百分点
知识更新： 世界知识截止到2025年1月
上下文窗口： 支持100万Token
重要预告： 3.5 Pro将在下月发布

这里需要解释一下Token和上下文窗口的概念。Token是大语言模型处理文本的基本单位，一个中文汉字通常被编码为1-2个Token，一个英文单词约为1-1.5个Token。上下文窗口（Context Window）指模型在单次对话中能够"记住"和处理的最大Token数量。100万Token意味着Gemini 3.5可以一次性处理约50-70万字的中文内容，相当于一部长篇小说的篇幅。这一能力对于代码审查、长文档分析、多轮复杂对话等场景具有重要意义。作为对比，GPT-4 Turbo的上下文窗口为12.8万Token，Claude 3.5为20万Token，Gemini在这一维度上保持着显著领先。

APP设计全面焕新，新增"急速回答模式"和"全方位帮助模式"，并引入思考等级设置（标准模式适合大多数问题，扩展模式解决复杂问题但消耗更多Token）。思考等级设置本质上是让用户在响应速度和推理深度之间做出权衡——扩展模式下模型会进行更多步骤的"链式思考"（Chain of Thought），类似于人类面对难题时反复推敲的过程，因此能获得更准确的答案，但代价是更长的等待时间和更高的算力消耗。

谷歌全家桶联动

Google Maps联动： 内置Gemini语音问答，可直接询问餐饮推荐等
YouTube联动： 将整个YouTube作为知识库（Ask YouTube功能，需YouTube会员，下季度上线）
Google Docs联动： 支持语音写文档，自动整理语音内容
日报功能： 每天早上自动推送个人日报
记事本联动： 支持文字转视频等多模态转换

谷歌将YouTube作为知识库的策略尤其值得关注。YouTube每分钟有超过500小时的视频被上传，积累了人类有史以来最庞大的视频知识库。通过Gemini的多模态理解能力，谷歌可以将这些视频内容转化为可检索、可问答的结构化知识，这是其他AI公司难以复制的独特数据优势。

谷歌文档语音写作功能

Agent与开发者工具

独立桌面端： 原先搭载在Cloud上的编程工具（类似Cursor的反重力）现已独立为桌面应用
TwinEye Spark： 谷歌版的自动化Agent，通过谷歌云虚拟机7×24小时不间断工作，可联动邮箱等全家桶服务（需美国IP的Ultra订阅）
Hero（安卓）： 可以实时监督AI工作进度的"赛博监工"应用

AI Agent（智能体）是2024-2025年AI行业最热门的发展方向之一，它代表着AI从"被动回答问题"向"主动执行任务"的范式转变。与传统聊天机器人不同，Agent能够自主规划任务步骤、调用外部工具、与真实环境交互并根据反馈调整策略。TwinEye Spark本质上是一个基于云端虚拟机的自主Agent，它可以7×24小时运行，自动处理邮件、文档整理等日常事务。这一方向上，OpenAI的Operator、Anthropic的Computer Use以及国内的各类Agent框架都在快速迭代，竞争异常激烈。谷歌的独特优势在于其全家桶生态——Agent可以无缝调用Gmail、Google Calendar、Google Drive等服务，形成真正的闭环工作流。

设计与创意工具

Google Pix： 海报制作产品，目前需申请内测
Stitch： 产品大幅更新，换了全新图标并发布大量宣传视频
Flow平台： 除视频生成外还更新了多种创意工具

其他发布

谷歌还展示了智能眼镜、新芯片，以及Gemini与科研领域的合作计划。

结语

本次I/O大会展示了谷歌在AI全生态布局上的野心，从模型能力到产品整合都有显著进步。但就视频生成这一具体赛道而言，Omni模型目前仍处于早期阶段，算力瓶颈和功能限制使其实用性有限。相比之下，Seedance 2.0在可用性和生成质量上都更具竞争力，值得国内创作者优先尝试。

值得注意的是，AI视频生成领域正处于快速迭代期。从2024年初Sora的惊艳亮相，到如今各家模型百花齐放，这一赛道的竞争格局每隔几个月就会发生显著变化。对于创作者而言，保持对多个平台的关注、根据具体需求灵活选择工具，可能比押注单一模型更为明智。

核心要点

Gemini Omni视频生成模型需Pro会员，每条720p视频消耗20积分，但存在严重算力不足和排队问题
对比测评中Seedance 2.0在毛发质感、镜头运动控制方面优于Omni，草图理解两者都表现不佳
Gemini 3.5模型编程能力提升6%，支持100万Token上下文（约50-70万字中文），3.5 Pro将于下月发布
谷歌全家桶深度联动Gemini，包括地图、YouTube、文档、记事本等多个产品，YouTube知识库是其独特数据优势
谷歌推出独立桌面编程工具、TwinEye Spark自动化Agent及Hero安卓监控应用，标志着AI从对话向自主执行任务的范式转变