Sora到底懂不懂物理世界? Sora AI视频造成影响介绍[多图]

时间：2024-2-21 8:14:53

Sora到底懂不懂物理世界，这是目前热搜上的一个话题，对于Sora大家都在议论，不懂的萌新也不知道这个软件的作用，目前制作出事有关物理世界的建模玩法，里面涉及到一些引擎，下面就来介绍下Sora和物理世界有什么关系。

Sora物理引擎介绍

Sora 到底是不是物理引擎甚至世界模型?图灵奖得主 Yann LeCun、Keras 之父 Francois Chollet 等人正在深入探讨。

Sora到底懂不懂物理世界? Sora AI视频造成影响介绍[多图]图片1

最近几天，OpenAI 发布的视频生成模型 Sora 成了全世界关注的焦点。

【关注机器之心视频号，第一时间看到有趣的 AI 内容】

和以往只能生成几秒钟视频的模型不同，Sora 把生成视频的长度一下子拉长到 60 秒。而且，它不仅能了解用户在 Prompt 中提出的要求，还能 get 到人、物在物理世界中的存在方式。

以经典的「海盗船在咖啡杯中缠斗」为例。为了让生成效果看起来逼真，Sora 需要克服以下几个物理难点：

规模和比例的适应：将海盗船缩小到能够在咖啡杯中缠斗的尺寸，同时保持它们的细节和结构，是一个挑战。AI 需要理解和调整这些对象在现实生活中的相对尺寸，使得场景在视觉上显得合理;

流体动力学：咖啡杯中的液体会对海盗船的运动产生影响。AI 模型需要模拟液体动力学的效果，包括波浪、溅水和船只移动时液体的流动，这在计算上是复杂的;

光线和阴影的处理：为了使场景看起来真实，AI 需要精确地模拟光线如何照射在这个小型场景中，包括咖啡的反光、船只的阴影，以及可能的透光效果;

动画和运动的真实性：海盗船的运动需要符合真实世界的物理规律，即使它们被缩小到咖啡杯中。这意味着 AI 需要考虑到重力、浮力、碰撞以及船体结构在动态环境中的行为。

Sora到底懂不懂物理世界? Sora AI视频造成影响介绍[多图]图片2

虽然生成效果还有些瑕疵，但我们能明显感觉到，Sora 似乎是懂一些「物理」的。英伟达高级研究科学家 Jim Fan 甚至断言，「Sora 是一个数据驱动的物理引擎」，「是一个可学习的模拟器，或『世界模型』」。

Sora到底懂不懂物理世界? Sora AI视频造成影响介绍[多图]图片3

部分研究者同意这样的观点，但也有不少人反对。

Yann LeCun：生成视频的过程与基于世界模型的因果预测完全不同

图灵奖得主 Yann LeCun 率先亮明观点。在他看来，仅仅根据 prompt 生成逼真视频并不能代表一个模型理解了物理世界，生成视频的过程与基于世界模型的因果预测完全不同。

他接着讲到，模型生成逼真视频的空间非常大，视频生成系统只需要产生一个合理的示例就算成功。不过对于一个真实视频而言，其合理的后续延续空间却非常小，生成这些延续的代表性片段，特别是在特定行动条件下，任务难度更大。此外生成视频的后续内容不仅成本高昂，实际上也毫无意义。

因此，Yann LeCun 认为，更理想的做法是生成视频后续内容的抽象表达，并消除与我们可能所采取动作无关的场景中的细节。

当然，他借此又 PR 了一波 JEPA(Joint Embedding Predictive Architecture，联合嵌入预测架构)，认为上述做法正是它的核心思想。JEPA 不是生成式的，而是在表示空间中进行预测。与重建像素的生成式架构(如变分自编码器)、掩码自编码器、去噪自编码器相比，联合嵌入架构(如 Meta 前几天推出的 AI 视频模型 V-JEPA)可以产生更优秀的视觉输入表达。

Sora到底懂不懂物理世界? Sora AI视频造成影响介绍[多图]图片4

François Chollet：只让 AI 看视频学不成世界模型

Keras 之父 François Chollet 则阐述了更细致的观点。他认为，像 Sora 这样的视频生成模型确实嵌入了「物理模型」，但问题是：这个物理模型是否准确?它能否泛化到新的情况，即那些不仅仅是训练数据插值的情形?

Sora到底懂不懂物理世界? Sora AI视频造成影响介绍[多图]图片5

Chollet 强调，这些问题至关重要，因为它们决定了生成图像的应用范围 —— 是仅限于媒体生产，还是可以用作现实世界的可靠模拟。

Sora到底懂不懂物理世界? Sora AI视频造成影响介绍[多图]图片6

Chollet 通过海盗船在咖啡杯中缠斗的例子，讨论了模型能否准确反映水的行为等物理现象，或者仅仅是创造了一种幻想拼贴。这里，他指出模型目前更倾向于后者，即依赖于数据插值和潜空间拼贴来生成图像，而不是真实的物理模拟。有人将这种行为类比为人类做梦，认为 Sora 其实只是达到了人类做梦的水平，但是逻辑能力依然不行。

Sora到底懂不懂物理世界? Sora AI视频造成影响介绍[多图]图片7

Sora 生成的人类考古视频，椅子在画面中凭空出现，而且不受重力影响漂浮在空中。

Chollet 指出，通过机器学习模型拟合大量数据点后形成的高维曲线(大曲线)在预测物理世界方面是存在局限的。在特定条件下，大数据驱动的模型能够有效捕捉和模拟现实世界的某些复杂动态，比如预测天气、模拟风洞实验等。但这种方法在理解和泛化到新情况时存在局限。模型的预测能力依赖于其训练数据的范围和质量，对于那些超出训练数据分布的新情况，模型可能无法准确预测。

Sora到底懂不懂物理世界? Sora AI视频造成影响介绍[多图]图片8

Sora到底懂不懂物理世界? Sora AI视频造成影响介绍[多图]图片9

所以，Chollet 认为，不能简单地通过拟合大量数据(如游戏引擎渲染的图像或视频)来期望得到一个能够泛化到现实世界所有可能情况的模型。这是因为现实世界的复杂性和多样性远超过任何模型能够通过有限数据学习到的。

Sora到底懂不懂物理世界? Sora AI视频造成影响介绍[多图]图片10

田渊栋：学习物理需要主动学习或者策略强化学习

针对 Jim Fan 的观点，一些研究者提出了更激进的反驳，认为 Sora 并不是学到了物理，只是看起来像是学到了罢了，就像几年前的烟雾模拟一样。也有人觉得，Sora 不过是对 2D 像素的操纵。

Sora到底懂不懂物理世界? Sora AI视频造成影响介绍[多图]图片11

当然，Jim Fan 对「Sora 没有在学习物理，而只是操纵 2D 像素」这一说法进行了一系列反驳。他认为，这种观点忽略了模型在处理复杂数据时所展现出的深层次能力。就像批评 GPT-4 不是学习编码，只是随机挑选字符串一样，这种批评没有认识到 Transformer 模型在处理整数序列(代表文本的 token ID)时所表现出的复杂理解和生成能力。

Sora到底懂不懂物理世界? Sora AI视频造成影响介绍[多图]图片12