当 OpenAI 发布 Sora 的演示视频时,整个互联网都沸腾了。一个戴墨镜的女子走在东京街头,霓虹灯的倒影在湿漉漉的地面上流淌;猛犸象在雪地里踏步,扬起的雪尘真实可感。这些连电影特效大师都要花费数月才能完成的镜头,竟然是由 AI 根据几行文字描述,在瞬间凭空生成的。
人们在惊叹之余,不禁产生了一丝寒意:Sora 到底是如何做到的?它真的“理解”了我们这个世界吗?
要回答这个问题,我们需要深入 AI 的“大脑”,看看它是如何像造物主一样,从一片虚无中“捏造”出光影、运动和物理规则的。这背后,是一场关于“噪声”的魔法艺术。
从“无中生有”的艺术:扩散模型
Sora 生成视频的核心技术,建立在一种被称为扩散模型的基础之上。如果你用过多邻国(DALL·E)或 Midjourney 这样的 AI 绘画工具,你其实已经体验过它的魔力了。Sora 本质上是将这种能力从二维平面扩展到了三维时空。
扩散模型的工作原理听起来非常有禅意:先破坏,再重建。
想象一下,你有一张清晰的照片。现在,你不断地往上面添加随机的噪点,也就是我们常说的雪花点。慢慢地,这张照片会变得越来越模糊,直到最后完全变成了一片毫无意义的随机噪声图像。AI 在训练阶段,就看了无数次这样的破坏过程,它学会了如何将一张有意义的图像一步步变成纯噪声。
接下来就是见证奇迹的时刻:AI 会尝试逆转这个过程。
当我们给 AI 输入一句描述提示词,比如“一只在海滩上奔跑的金毛犬”,AI 并没有直接“画”出这只狗。相反,它从一片纯粹的随机噪声开始。然后,它根据它学到的知识,一步步地预测并去除噪点,试图从这片混沌中“恢复”出符合提示词的图像。
这就好比一个技艺高超的雕塑家,面对一块未经雕琢的大理石,他脑海中已经有了雕像的模样,然后一刀一刀地凿去多余的部分,让藏在石头里的形象显露出来。扩散模型也是如此,它从噪声中一点点地“雕刻”出图像的细节、纹理和光影。
构建世界的规则:AI 的“物理引擎”
但是,视频不仅仅是连续的图像。要让视频看起来真实,物体必须遵循物理世界的运动规律。比如,人走路时身体会有起伏,物体掉落会加速,水面的倒影会随着波纹扭曲。
这就是 Sora 最令人细思极恐的地方:它似乎不仅学会了画画,还学会了我们这个世界的物理规律。OpenAI 的研究人员称之为世界模型。
为了实现这一点,Sora 在训练时被喂入了海量的视频数据。这些视频包含了现实世界中万事万物的运动方式。AI 通过一种被称为 Transformer 的架构,像学习语言语法一样,学习视频中每一帧画面之间的逻辑关系。
它学会了当一个人抬起左脚时,下一帧他的重心应该如何移动;当一辆车驶过水坑时,水花应该如何飞溅。通过对海量视频数据的深度学习,Sora 在它的神经网络中构建了一个关于我们世界的隐秘模型。
这个模型并不是像物理学家那样用公式来描述世界,而是通过无数参数构建的一种直觉性的理解。正如 OpenAI 的技术报告中所说,Sora 在没有被明确教导物理公式的情况下,展现出了对物理世界因果关系和运动规律的惊人模拟能力。它知道物体不会凭空消失,知道重力会让东西往下掉,知道光线遇到镜面会反射。
结语:虚实难辨的未来
当然,Sora 目前还远非完美。在一些复杂的物理场景中,它仍然会犯常识性的错误,比如让一个人凭空多出一只手,或者让破碎的玻璃杯自动复原。这说明它的“世界模型”还存在漏洞,它对物理世界的理解还停留在模仿层面,而非真正的认知。
但 Sora 的出现无疑是一个巨大的里程碑。它证明了 AI 不仅能理解我们的语言,还能理解我们身处的物理空间和时间。这种能力一旦成熟,它带来的将不仅仅是电影工业的革命。
未来的游戏、虚拟现实,甚至是科学模拟,都可能被这种技术彻底重构。我们正在加速驶向一个虚实难辨的未来,而 Sora,只是这个未来的一段预告片。
来源: 张天缘的科普号
科普中国公众号
科普中国微博

帮助
张天缘的科普号 