AI抛硬币不是50%：世界模型如何改变AI的未来

一个反直觉的实验：AI抛硬币的概率偏差

现实世界中抛一枚硬币，正面朝上的概率大约是50%，这是常识。但如果在AI生成的世界里抛硬币，结果还会是50%吗？

影视飓风团队做了一个有趣的实验——他们在多个AI视频生成模型中投了几百次硬币，使用完全相同的提示词。结果出人意料：某个模型大约有70%的概率生成正面（数字面）朝上的结果，其他模型的偏差同样显著。明明给AI的指令是"随机"的，人类点击按钮的行为也是随机的，但生成结果却远远偏离50%。

这个看似无厘头的小实验，实际上揭示了当前生成式AI面临的两个根本性问题，也指向了一个正在改变整个科技界的技术方向——世界模型（World Model）。

当前AI视频生成的两大致命弊端

AI也许能骗你的眼睛一下

弊端一：能骗眼睛，骗不了物理定律

过去半年，AI生成的视频越来越逼真，甚至出现了"用AI生成的AI生成视频"。要判断一段影像是否来自真实世界，人类已经几乎一败涂地。但AI仍然有一个致命弱点：它不理解真实的物理规律。

生成式AI的工作原理是在海量训练数据中提取规律，但这种"规律"并非真实世界的物理定律，更像是它根据数据"画"出来的一种模式。以抛硬币为例，在电影、广告和日常视频中，硬币正面清晰展示的镜头远多于反面——这就是所谓的数据偏见。AI学到的不是"硬币正反面概率相等"这个物理事实，而是"人类拍摄的硬币视频中正面出现更多"这个统计特征。

弊端二：算力消耗巨大，质量难以保证

高质量AI视频生成对计算资源的消耗是惊人的。曾经备受关注的Sora 2模型（现已关闭服务），生成一段10秒左右的视频，服务器大约需要消耗整整一度电，并蒸发掉相当量的冷却用淡水。如此高昂的算力成本，却不一定能保证物理上的正确性，这显然不是一条可持续的路径。

世界模型：从模仿表象到理解物理世界

世界模型的概念

那么，这两个问题有没有解法？答案是世界模型（World Model）。

什么是世界模型？

简单来说，世界模型是一种能够预测"当我采取某个行动后，世界会发生什么变化"的AI模型。它的工作流程可以分为三步：

观察世界：它知道这是一枚硬币，了解它的大致重量、正反面是否均等、从什么位置开始抛、落在什么材质上。
预测未来：这是世界模型最核心的能力——它会推演接下来无数种物理走向的可能性。
判断执行：基于想象出来的未来，判断行动带来的结果，再去执行。

本质上，世界模型与人类的直觉非常接近。我们在接住一个球之前，大脑会瞬间预测球的轨迹；我们在倒水时，会自然地预判水流的方向。世界模型要做的，就是让AI也具备这种对物理世界的直觉理解。

世界模型生成的是三维可交互世界

与传统的视频生成模型不同，世界模型生成的不是二维的视频帧序列，而是三维的、可交互的物理世界。影视飓风团队演示了用一句话生成一个中世纪堡垒场景——有电子光效、大理石地板、遗迹风格的物体。你可以在这个场景中转圈、俯冲，甚至与世界交互，就像游戏一样。

虽然目前画面还比较粗糙，但它已经初步具备了模拟三维物理世界的能力，大大降低了模型产生"物理幻觉"的概率。

Google OMNI：世界模型的最新进展

OMNI多模态模型

Google近期发布了融合世界知识理解的视频生成模型Veo 3 OMNI。根据官方说法，OMNI是一个学习了力学、数学、世界历史的多模态模型，已经非常接近人类对物理世界的认知。

它的物理模拟水平有了明显提升，生成的人物更像真人，少了以往AI视频那种"恐怖谷"的违和感。但真正让人震撼的是它的场景修正能力：

说话者的背景可以实时替换
手触摸的桌面材质可以随意变换
手中握的物体可以自由改变
即便是流体、透明物体，都能很好地映射和处理

这种对场景的深度理解和灵活修正能力，是以前的AI视频模型从未展现过的。不过，OMNI本质上仍然在生成二维视频。如果未来能在二维视频中实现自由运镜，或者将三维世界模型提升到更高的精度，AI视频创作的所有痛点都有望被彻底解决。

超越视频：世界模型的更大想象空间

虚拟空间中的机器人训练

世界模型的价值远不止于视频生成，它正在多个领域展现出颠覆性的潜力。

游戏行业：无尽的虚拟世界

如果一个世界可以无限制地生成，那它就是一个无尽的游戏。以前需要花几周时间建模的场景，现在只需一次算力就能生成。世界模型对游戏行业的冲击将是颠覆性的——从关卡设计到开放世界构建，开发效率可能提升数个量级。

机器人训练：虚拟世界中的无限试错

把机器人丢进一个仿真的世界模型中，它可以无限次地打翻杯子、无限次摔倒重来。通过这种方式，机器人能学会什么是轻重、什么是高低、什么是远近，四肢运动可以像有肌肉组织的真人一样自然。

虽然目前机器人的姿态控制已经相当出色，但距离最高预期仍有差距——而世界模型正是缩小这个差距的关键技术。

4D高斯技术：未来影像体验的雏形

影视飓风团队分享了一个实际案例：他们使用4D高斯技术，用250台相机拍摄真实演员和场景，再通过计算机训练重建，制作了一部时长35分钟的VR短片。在这个短片中，观众可以移动到空间的任何角度去观察虚拟世界中正在发生的事情——可以看着前面的角色，也可以走开去端详其他角落。

虽然这目前还需要大量硬件设备来实现，但它展示了世界模型成熟后影像体验的雏形：如果未来一句话就能生成这样的四维动态世界，内容创作和消费的方式都将发生根本性的变革。

AI抛硬币终将接近50%

回到最初的问题。AI抛硬币概率不是50%，本质上是因为当前的生成模型不理解物理世界，只是在模仿训练数据中的统计分布。而世界模型的出现，正是要从根本上解决这个问题——让AI不仅"看起来像"，更要"物理上对"。

英特尔、英伟达等芯片巨头正在大力推进NPU与世界模型的结合，未来的AI PC可能不只是生产力工具，而是个人数字世界的模拟器。理论上，再过几年去AI里抛硬币，结果应该会比现在均匀得多。

这不仅仅是一个关于硬币的故事，而是关于AI如何从"模仿世界的表象"进化到"理解世界的本质"的深刻转变。这个转变，正在发生。