智东西(公众号:zhidxcom)
编译 | 香草
编辑 | 李水青
智东西3月8日报道,近日,深度学习三巨头之一、Meta首席科学家杨立昆点赞分享了一篇万字博文《视频生成器是世界模拟器吗?(Are Video Generation Models World Simulators?)》。

▲杨(yang)立(li)昆在X平台上(shang)转发并(bing)称(cheng)这(zhei)是一篇(pian)好文章
文章从Sora的工作原理、模拟假说、直观物理学、世界模型的定义、图像生成等角度,深入探讨了标题所提出的问题,并得出结论:像Sora这样的视频生成器,可能不是人们想象中的“世界模拟器”,但从更宽泛的定义上来看,它们可以被视作有限的“世界模型”。
本文作者以文生图模型为例证,论述了Sora可能和Stable Diffusion类似,生成过程超出了对像素空间表面统计的拟合,可能受到3D几何和动态关键方面的潜在表示的影响,从而学到有用的深度、因果等特征的抽象表征。换句话说,Sora能在潜在空间中学习抽象规律,具有部分模拟世界的能力。
自Sora于今年初发布以来,“Sora是否理解物理世界”话题引来众多大佬下场讨论。其中英伟达的科学家Jim Fan将Sora描述为“数据驱动的物理引擎”;杨立昆则多次开喷Sora,称Sora的训练方式无法构建世界模型,通过生成像素的方式来建模世界,与几乎已经被抛弃的“综合分析”方法一样,浪费时间且“是一次彻头彻尾的失败”。
该(gai)文(wen)章(zhang)的(de)作者是澳大(da)利亚悉尼麦考瑞大(da)学的(de)哲(zhe)学讲师拉斐尔·米利埃尔(Raphaël Millière),他(ta)主要从事AI、认知科学和心智哲(zhe)学等方面的(de)学术研究(jiu)。以下是对该(gai)文(wen)章(zhang)的(de)全文(wen)编译,由于篇幅原(yuan)因(yin)进(jin)行了部分(fen)删减(jian)。

▲文章首页截图
原文地址(zhi):
//artificialcognition.net/posts/video-generation-world-simulators/#concluding-thoughts
一、Sora是一项工程壮举,架构没有真正突破
2024年2月(yue)16日,OpenAI推出Sora,一(yi)个令(ling)人(ren)印象深刻的(de)新型深度(du)学(xue)习模型,可(ke)以(yi)根据文(wen)本提示(shi)生(sheng)(sheng)成(cheng)视频(pin)和图像。Sora可(ke)以(yi)生(sheng)(sheng)成(cheng)长达一(yi)分钟的(de)视频(pin),具有不同的(de)分辨率和宽高(gao)比。虽然(ran)目(mu)前无(wu)法测试该模型,但OpenAI挑选(xuan)的(de)结(jie)果表明它在先前的(de)技术水平上(shang)有了(le)巨大(da)的(de)改(gai)进。
OpenAI有些自大地声称Sora是一个“世界模拟器”。那么什么是世界模拟器呢?这是OpenAI对训练Sora动(dong)机的陈述(shu):
“我们正在教AI如何理解和模拟物理世界中的运动,目标是训练出能够帮助人们解决需要与现实世界进行交互的问题的模型。”
OpenAI还发布了(le)Sora技(ji)术报告,其中阐述了(le)对Sora理论意义(yi)的理解:
“我们的研究结果(guo)表明,扩(kuo)展(zhan)视频生成模(mo)型是建立物理世界通用(yong)模(mo)拟器的一条(tiao)可行之路(lu)。”
Sora的技术报告对细节描述得很少,但提供了一些关于架构的线索。其核心是一个扩散变换器(Diffusion Transformer,简称DiT),这是比尔(er)·皮(pi)布尔(er)斯(Bill Peebles,也是Sora的主(zhu)要作者之一(yi))纽约大学的谢赛宁设计的一(yi)种架构。
DiT是一(yi)种(zhong)具有Transformer主干(gan)网(wang)络的(de)扩散(san)模型。我们(men)熟悉的(de)图(tu)(tu)像生成模型,如Stable Diffusion是潜在扩散(san)模型。它们(men)使(shi)用(yong)预训练(lian)的(de)变分(fen)自(zi)动编码(ma)器(VAE)将原(yuan)始图(tu)(tu)像从像素空(kong)间(jian)(jian)压缩到潜在空(kong)间(jian)(jian);然后,扩散(san)模型在从VAE学(xue)习的(de)较低(di)维潜在空(kong)间(jian)(jian)上进行训练(lian),而不是在高维像素空(kong)间(jian)(jian)上。这种(zhong)扩散(san)过(guo)程通常使(shi)用(yong)U-Net骨干(gan)实现(xian)。U-Net是一(yi)种(zhong)卷(juan)积(ji)神经网(wang)络,最初用(yong)于图(tu)(tu)像分(fen)割(ge),后来(lai)被(bei)调整用(yong)于去噪扩散(san)。
DiT架构受潜在(zai)扩散模(mo)(mo)型(xing)的(de)(de)启发(fa),但将U-Net骨干替换为(wei)修改(gai)后的(de)(de)视觉(jue)Transformer(ViT)。ViT是专门用(yong)于(yu)(yu)视觉(jue)任务的(de)(de)Transformer模(mo)(mo)型(xing),它不(bu)以(yi)(yi)语言标记作(zuo)(zuo)为(wei)输入(ru),而是接(jie)收图(tu)像块(kuai)的(de)(de)序(xu)列。例如,一(yi)(yi)幅(fu)图(tu)像可以(yi)(yi)分割成16*16的(de)(de)补丁(ding)(Patches),从(cong)而为(wei)Transformer提供256个(ge)输入(ru)Tokens。同(tong)样,作(zuo)(zuo)为(wei)DiT的(de)(de)核心修改(gai)后,ViT接(jie)受来自VAE的(de)(de)图(tu)像补丁(ding)的(de)(de)潜在(zai)表示作(zuo)(zuo)为(wei)序(xu)列输入(ru)Tokens。相较于(yu)(yu)带(dai)有U-Net的(de)(de)传统潜在(zai)扩散模(mo)(mo)型(xing),DiT具有一(yi)(yi)些优势:效率更高、扩展性更好,而且(qie)易于(yu)(yu)适应不(bu)同(tong)的(de)(de)生成分辨率。
在Sora之前,DiT架构已经被用于(yu)文本条件下的(de)图像(xiang)和视频生成(cheng)。OpenAI提出的(de)解决方案使用所谓的(de)“视频压缩网络”(Video compressor network),这可能是针对视频进行(xing)改编(bian)的(de)VAE。其基本思想与最初的(de)DiT相(xiang)同:
(1)视频(pin)压(ya)缩网(wang)络将(jiang)原始视频(pin)输入压(ya)缩为潜在时空表示(shi);
(2)压缩后的视频被转(zhuan)换为(wei)“时空补丁”,作为(wei)输(shu)入Token提供给扩散变换器;
(3)在最后(hou)一个Transformer块之后(hou),与视频压缩(suo)网(wang)络一起训练的解(jie)码器模型将生成(cheng)的潜在表(biao)示映射回像素空间。
与OpenAI之前的GPT-3等成就一样,大家的共识似乎是,Sora的架构并没有什么真正的突破。正如(ru)谢赛宁所(suo)说,它实质(zhi)上是一种(zhong)适用于(yu)视频的DiT,没有额外的花哨功能。
因此,Sora在很大程度上是一项工程壮举,也是对扩展能力的又一次证明。技术报告生动地说明了样本质量随着训练计算量的增加而提高。与语言模型一样,某些能力似乎也会随着规模的扩大而显现;自然地,Sora也再次引发了关于纯粹的扩展到底能达到什么程度的激烈争论。
二、模拟假说:视频生成模型在训练中习得物理规律
Sora的技术报告声称,随着规模的扩大,Sora获得了“新兴的模拟能力”。它提到了通过动态摄像机(ji)运(yun)动、遮挡、客体(ti)永久性和(he)视(shi)频(pin)游戏模(mo)拟等来实现(xian)场景(jing)一致(zhi)性,作为此类能力的示例(li)。报告(gao)继续得出结(jie)论:
“这些能力表明,视频模型的持续扩展是开发高性能物理和数字世界模拟器的有力路径,这些模拟器涵盖了生活在其中(zhong)的对象(xiang)、动物和人。”
我们称之为模拟假说(Simulation hypothesis)。
这个假设的问题在于,它非常模糊。视频生成模型模拟物理世界到底意味着什么?什么样的证据可以支持这一主张?让我们逐一(yi)回答这些问题。
在Sora发布之后,AI行业的知名人士纷纷表达了他们对模拟假说的理解。英伟达的Jim Fan将Sora描述为“数据驱动的物理引擎”。他这样解释这句话的含(han)义:
“Sora通过(guo)大量视频的(de)梯(ti)度下降,在神经参数(shu)中隐式地学(xue)习物理引擎。Sora是(shi)一个可学(xue)习的(de)模(mo)拟器,或者说(shuo)是(shi)‘世(shi)界模(mo)型’。
Sora必(bi)须(xu)学习一些(xie)隐式(shi)的(de)文本(ben)到3D、3D变(bian)换、光(guang)线(xian)追踪渲染(ran)和物(wu)理规(gui)则,以(yi)便(bian)尽可能准确地(di)模拟视频(pin)像(xiang)素。它必(bi)须(xu)学习游戏引擎(qing)的(de)概念,以(yi)满足目标。”
物理(li)引擎的术语有(you)些令人困惑,尤(you)其是考(kao)虑到(dao)有(you)猜测(ce)认为(wei)Sora是在(zai)虚幻5场景上训练得到(dao)的,所以(yi)让我们先澄清(qing)这(zhei)一点。
据我所知,包括Jim Fan在内,没有人真的认为Sora在推理时有一个物理引擎在循环中。换句话说,作为一个DiT模型,它不会在生成视频时调用虚幻引擎。
实(shi)际上(shang),神经网络调用物理引擎以前已经有人(ren)尝试过,但不是用于视频生(sheng)成,而是为了(le)物理推(tui)理。2023年(nian),谷歌大脑(nao)的(de)一篇论文Mind’s Eye通(tong)过物理引擎模(mo)拟(ni)可能的(de)结果,来(lai)提高语言模(mo)型在物理推(tui)理问题上(shang)的(de)表现,将这(zhei)些模(mo)拟(ni)的(de)结果作为提示(shi)词中的(de)线索。

▲Mind’s Eye论文截图
那么,我们应该如何理解Sora类似(si)于“数据驱动的物理引(yin)擎”模拟物理世界的主张(zhang)呢(ni)?谷歌DeepMind的Nando de Freitas这样说(shuo):
“一(yi)个有限(xian)大小的神(shen)经网(wang)络能够预(yu)测任何情况(kuang)下(xia)会发(fa)生(sheng)什么的唯一(yi)方式,是通过学习(xi)内部模型来促进这种预(yu)测,包括直观的物理定律。”
我们越来越接近模拟假说的明确陈述:一个基于端到端神经网络架构、参数设置有限的足够好的视频生成模型,应该有望在训练过程中获得物理世界的内部模型,因(yin)为这是神(shen)经网络生(sheng)成任意场景的(de)(de)连贯(guan)、逼真视频的(de)(de)最有效方(fang)法(fa)——也许是唯(wei)一的(de)(de)方(fang)法(fa)。
Sora 是否真的从 2D 视频中归纳出物理定律?
如上所述,这可能看起来(lai)很荒谬(miu)。
游(you)戏(xi)引擎通常也不模(mo)(mo)拟这些法则。虽然它们可(ke)能会模(mo)(mo)拟热(re)效应(ying)(火灾、爆(bao)炸)和做功(物体(ti)克服摩擦力移动),但(dan)这些模(mo)(mo)拟通常是高度抽象的(de),并不严格遵守热(re)力学方程。他(ta)们根(gen)本(ben)不需要这样做,因为(wei)他(ta)们的(de)重点是渲(xuan)染场景的(de)视觉和交互可(ke)信度,而不是严格的(de)物理(li)准确(que)性。
Sora会做类似的事情吗?
如果想回答这个问题,我们需要探讨直观物理学。
三、像人一样,通过直观物理引擎模拟事件?
对人(ren)类而(er)言,即使(shi)是婴儿也(ye)展现(xian)出对物(wu)理世界的稳定预(yu)期。例如看到一只球沿(yan)着地板滚向(xiang)墙壁,我们会直觉(jue)地知道球会撞到墙壁并(bing)反弹(dan)回来,而(er)不(bu)是穿过它(ta)。
这就是认知科学家称之为直(zhi)观(guan)物理学(Intuitive physics)的东西:一种快(kuai)速、自(zi)动的日常推理,它让人(ren)们知道当各种物(wu)体相互作用时会(hui)发生(sheng)什么,而不需要(yao)有意(yi)识(shi)地进行物(wu)理计算(suan)。

▲作为概率推(tui)理的直观(guan)物理学论文(wen)截图
人类是如何做到的呢?认知科学家提出了一个著名的假设,人们使用一个直观物(wu)理引擎(IPE)来模拟物理事件。
IPE类似于计(ji)算机游戏中的(de)物(wu)理引(yin)擎,它(ta)基于不完全(quan)准确的(de)物(wu)理原理,通过随机模拟来预测(ce)物(wu)理现象。根据这种观点,当(dang)我们观察(cha)物(wu)理场景时,会根据质(zhi)量、摩擦(ca)、弹性等感知(zhi)证据构(gou)建对物(wu)体、属性和作用力的(de)心理表征,然后(hou)运行内部模拟来预测(ce)接下来会发生什么(me)。
然而,关于IPE假设也存在争议。批(pi)评者指出,人类的(de)物(wu)理推理有(you)时会偏(pian)离IPE式模拟预(yu)测,包括系统偏(pian)差和错误以(yi)及对(dui)视(shi)觉捷径(jing)的(de)依赖等(deng)。一些人认为,非牛顿心理模型、深(shen)度学习模型可能更好地解释人类对(dui)物(wu)理的(de)直觉。
尽管(guan)存在争议(yi),但至少有一个相对合理且有丰(feng)富(fu)实验文(wen)献支持的(de)案例支持模拟假说。现在,我(wo)们(men)可以将这一背景知识应用于(yu)人工神经网(wang)络,探讨它们(men)是否能够模拟物理世界。
四、已有“世界模型”,未达强因果概念高标准
通过心理学中的直观物理学,我们提出了一个重要的点:对物理场景进行心理模拟,与仅仅表示物理世界的各个方面(例如几何形状)之间存在表面上的区别,这个区别在讨论像视频生成模型这样的神经网络的能力时非常重要。
世界(jie)模型(World models)的含义已经被淡化,以至于在实践中变得相当难以捉摸。在机器学习研究中,它主要起源于20世纪90年代Juergen Schmidhuber实验室的强化学习文献。在这种情况下,世界模型指的是智能体对其交互的外部环境的内部表示。具体来说,给定环境状(zhuang)态和智能体行动(dong),世界(jie)模型可(ke)以(yi)预测智能体采(cai)取(qu)该行动(dong)后环境的(de)未(wei)来状(zhuang)态。
在2018年(nian)Ha和Schmidhuber发(fa)表的(de)(de)(de)世界模(mo)型论文中,他们(men)提出世界模(mo)型包括一个感官组件,它处(chu)理原始观察(cha)结果,并将它们(men)压缩成一个紧凑(cou)的(de)(de)(de)编(bian)码。具(ju)体来说,基于RNN的(de)(de)(de)世界模(mo)型被训练为在智能体之前的(de)(de)(de)经验条(tiao)件下,内部模(mo)拟并预测未(wei)来的(de)(de)(de)潜在观察(cha)编(bian)码、奖(jiang)励和终止信号(完成状(zhuang)态(tai))。

▲Ha和Schmidhuber的世界模型模拟的环境(jing)中驾驶的智能体(ti)
Ha和Schmidhuber的世界模型论文影响了许多后续作品。谷歌DeepMind近日推出了基础世界模型Genie,虽然它不是一(yi)个强化学习系(xi)统,但它与(yu)Ha和Schmidhuber的框架具有关键的相似之处。
Genie生成一个交互式环境,人类用(yong)户可(ke)以(yi)通过(guo)影响未来视频生成的(de)操作来控(kong)制智能体,它引入了无监督动(dong)作空间(jian)学习(xi)的(de)概念(nian),以(yi)避免训(xun)练(lian)(lian)过(guo)程(cheng)中对动(dong)作标签的(de)依赖。因此,任意视频都可(ke)以(yi)作为训(xun)练(lian)(lian)数据,而不是带有动(dong)作标记的(de)示例。

▲Genie
另一个值得一提的世界模型概念来自杨立昆,这在他的联合嵌入式预测架构(JEPA)中得到了(le)突(tu)出(chu)体(ti)现。在他的框架中,世(shi)(shi)界(jie)模(mo)型(xing)是一个智能体(ti)用于规划和推理世(shi)(shi)界(jie)如(ru)何(he)运作(zuo)的内(nei)部预测模(mo)型(xing),用于两个关键功(gong)能:
(1)估算智能体(ti)感知系统未提(ti)供(gong)的(de)有关当前(qian)世界(jie)状态的(de)缺失信(xin)息(xi);
(2)预测智能(neng)体提出的(de)一系列动(dong)作可(ke)能(neng)产(chan)生的(de)多个可(ke)能(neng)的(de)未来世界状(zhuang)态(tai)。

▲杨(yang)立昆(kun)提出的(de)自主机器(qi)智能认(ren)知架构(gou)的(de)高层(ceng)示意图
在JEPA架构中,世界模型模块是由预测器网络实现的。它最近被应用于视频,自监督模型V-JEPA通过预测视频潜在空间中遮蔽时空区域的表示来学习。V-JEPA和Sora之间的一个关键区别是它们各自的学习目标,以及这些目标可能对其潜在表示产生的下游影响。Sora针对像素空间的帧重建进行训练的,而V-JEPA则针对潜在空间的特征预测进行训练。根据杨立昆的观点,这会导致它们潜在表示之间的巨大差异。在他看来,像素级别的生成目标根本不足以诱导可能对在世界中规划和行动有用的抽象表示。
总之,人们使用“世界模型”一词的方式略有不同。无论是生成模型、强化模型,还是JEPA模型,都没有达到因果推理文献中“世界模型”这一强因果概念所设定的高标准。
那么像Sora这样的视频生成模型呢?我们可以从图像生成模型中寻找线索。
五、图像生成模型能学习3D几何结构,提供重要线索
Sora模型的(de)核(he)心(xin)是DiT,它受到常用于图像(xiang)生成的(de)潜在扩(kuo)散模型的(de)启发,但将U-Net骨干替换为了ViT。
这引发了一系列问题:基于潜在扩散的图像生成模型实际上编(bian)码了哪些信息?是仅(jin)仅(jin)编码了图像表(biao)面的(de)启发式信息,还是编码了视觉(jue)场(chang)景的(de)潜在(zai)变(bian)量,比如3D几(ji)何结构(gou)?
目前(qian),关于(yu)这个问题的研究并(bing)不多。
Zhan等人于2023年提出了一种方法来评估潜在扩散模型是否编码了图像中描绘的3D场景的不同物理属性。测试结果显示,像Stable Diffusion这样的模型能(neng)够编码(ma)关(guan)于(yu)3D场景(jing)几何、支持(chi)关(guan)系、照(zhao)明和相对深度(du)的(de)信息,尽管在遮挡方面(mian)的(de)分类性(xing)能较(jiao)低。
这项研究仅仅表明物理属性的信息可以从模型的激活中解码出来,并不意味着这些信息在模型行为上具有因果效力。
Chen等人在2023年的研究填补了这一空白。他们创建了一个由潜在扩散模型Stable Diffusion生成的图像数据集,并训练线性探测器来预测显著对象的分割和深度值。通过干预实验,他们发现模型的(de)内部激活对生成(cheng)图像(xiang)的(de)几何形状有因果影响。

▲用Chen等人的扩散模型解码(ma)的深度(du)和突出物体表(biao)示(shi)
这个实验表明,像SD这样的潜在扩散模型能够学习到关于简单场景(jing)几何的线性表示,特别是与深(shen)度和前景(jing)/背景(jing)区分相(xiang)关的(de)表(biao)示,即(ji)使它们仅仅在没有(you)显式深(shen)度监督的(de)情况下,只通过2D图像进(jin)行(xing)训练。
此外,这些表示在迭代采样过程的早期阶段就出现了,而在这些阶段,图像本身对于人类观察者来说仍然像是随机噪声,并且几乎不包含深度信息。这表明潜在扩散模型所做的远远超出了对像素空间表面统计的拟合。它(ta)们(men)引(yin)导(dao)了关(guan)于(yu)深度和显著性的潜在(zai)信息(xi),因为这样的信息(xi)对于(yu)生成逼真的图像目标(biao)非常有用。
还有其他关(guan)(guan)(guan)于(yu)(yu)图像(xiang)生成(cheng)模(mo)型(xing)(xing)的相关(guan)(guan)(guan)研究。低秩自适应(LoRA)可(ke)(ke)以用来直(zhi)接从潜在扩散模(mo)型(xing)(xing)中提取内在的“场景图”,如(ru)表面法线和深度。该方法可(ke)(ke)以将任何图像(xiang)生成(cheng)模(mo)型(xing)(xing)转(zhuan)化为固有场景属性预(yu)测器,而不需要额外(wai)的解码(ma)网络。结果(guo)表明(ming),可(ke)(ke)以通过利用模(mo)型(xing)(xing)参数中已经存在的信息来提取关(guan)(guan)(guan)于(yu)(yu)3D场景几何的精细预(yu)测。

▲在SD的(de)内在场景地图(tu)使(shi)用(yong)I-LoRA方法
这并不(bu)意味(wei)着潜在(zai)扩(kuo)散(san)模型能(neng)完美地表(biao)示视觉(jue)场(chang)景的(de)各个方面的(de)三维几何(he)。实际上,经过训练的(de)(de)人眼通常可以注意(yi)到输出中的(de)(de)各种缺(que)陷,物(wu)理(li)不(bu)一(yi)致性(xing)甚至(zhi)可以通过分类器进行量化,就像Sarker等人(2023年(nian))所做的(de)(de)那(nei)样。这些不(bu)一(yi)致性(xing)包(bao)括(kuo)物(wu)体及其阴影(ying)的(de)(de)错位,以及违反投(tou)影(ying)几何学的(de)(de)情况,例如线条未能正确地收敛到消失(shi)点或(huo)不(bu)遵循线性(xing)透视:

▲AI生成的(de)图像(xiang)中存在的(de)物理不一致性
对于如何(he)(he)修复(fu)生成图(tu)像(xiang)中这(zhei)些持(chi)续存在的(de)缺陷,有(you)很多有(you)趣的(de)猜想。一个假设是,测试的(de)模(mo)型(xing)(xing)可(ke)(ke)(ke)能不够(gou)大,或者训练数(shu)据不够(gou)充(chong)分。通(tong)过扩大参数(shu)和数(shu)据集的(de)规模(mo),可(ke)(ke)(ke)能足(zu)以使潜(qian)在扩散模(mo)型(xing)(xing)学(xue)习正确的(de)投(tou)影(ying)几何(he)(he),就像(xiang)它(ta)足(zu)以修复(fu)先前模(mo)型(xing)(xing)中的(de)许多其他逼真性和连贯性问题一样。但(dan)也(ye)有(you)可(ke)(ke)(ke)能存在更基本的(de)问题,阻止潜(qian)在扩散模(mo)型(xing)(xing)正确学(xue)习投(tou)影(ying)几何(he)(he)。例(li)如,它(ta)们的(de)架(jia)构可(ke)(ke)(ke)能缺乏适当的(de)归纳(na)偏差。在这(zhei)种(zhong)情况下,使用ViT作为主干结(jie)构的(de)DiT也(ye)可(ke)(ke)(ke)能减轻纯潜(qian)在扩散的(de)不足(zu)之处。
总之,对潜在扩散模型的探测和干预研究表明,它们确实能表示(shi)视觉(jue)场(chang)景3D几何的一些特征(zheng),这与它们原则上可以学习至少有限程度的“世界模型”的假设是一致的。它们的潜在空间编码了结构保持、因(yin)果有效的信息,这些信息超(chao)越了像(xiang)素空间的表面统计(ji)数据(ju)。这是解决关于(yu)Sora和模拟假说的猜测的重要线(xian)索。
六、Sora在潜在空间中学习抽象规律,是有限的“世界模拟器”
与用于(yu)图(tu)像生(sheng)成的潜在扩(kuo)(kuo)散模型一(yi)样,Sora是(shi)根据视觉输入进行端(duan)到端(duan)训(xun)练的,其训(xun)练和生(sheng)成都没有(you)明确地以物理变量为条件。但(dan)就像潜在扩(kuo)(kuo)散模型一(yi)样,它的输出表(biao)现(xian)出惊人的规律(lv)性(xing)。
在回顾了认知科学和机器学习中的直观物理模拟和世界模型的不同方式后,我们可以肯定的第一件事是,Sora从根本上不同于使用专用“直观物理引擎”来运行模拟的复合模型。
与直观物理引擎模型不同,Sora没有(you)专(zhuan)门的感知、预测和(he)决策模块,需要像物理引擎这样(yang)的接口;它只是一个(ge)高(gao)维空(kong)间,其中潜在(zai)表示(shi)经历跨层(ceng)的连续变换。
Sora也与Ha和Schmidhuber的世界模型大不相同。它不基于离(li)散动作、观(guan)察和奖励信号的历史来运行模拟。
在这方面,OpenAI的技术报告有些误导性内容。其给出的(de)(de)(de)Sora演示视频看起(qi)来像(xiang)是(shi)从Minecraft这(zhei)样的(de)(de)(de)视频游戏中(zhong)捕获的(de)(de)(de),但技术报告对这(zhei)些输出结果的(de)(de)(de)解释却更进一步:Sora可(ke)通过基本策略(basic policy)控制Minecraft中(zhong)的(de)(de)(de)玩家,同(tong)时(shi)还能高保真地呈现世界及其动态(tai)效果。

▲Sora演示视频
这表明Sora模仿了一个智能体(“可控”角色)的政策,就像离线强化学习一样。但这里没有传统意义上的“策略”——或者说代理、动作、奖励。与Genie不同,Sora没有接受过从视频(pin)中诱发潜(qian)在动(dong)作(zuo)(zuo)的训练(lian),并且其输出也不以此(ci)类动(dong)作(zuo)(zuo)为条件。
如果按照字面意思,技术报告暗示Sora已经自发地学会了在Minecraft角色内部表示类似隐式策略的东西,但这肯定不是我们仅通过查看输出就可以推断出来的。这是一个相当大胆的主张,应该通过分析模型内部的情况来澄清和支持。
因此,Sora与IPE模型、基于RL世界模型以及Genie不同,在以下强定义上,它不是一个“世界模拟器”。
定义1:一个可以对环境的元素和动态进行向前时间模拟,并且其预测是基于这些模拟的输出条件的系统。
Sora对时(shi)空Token的(de)预(yu)测是基于先前的(de)时(shi)空Token序列进行的(de),它(ta)不涉及(ji)运行大量(liang)关于2D视频场景(jing)中所描绘的(de)3D世界的(de)向前时(shi)间模拟。它(ta)不会像传统(tong)搜索算法一样,通过运行多个内部模拟来预(yu)测合法移动,并根(gen)据结果(guo)调(diao)整下一步的(de)预(yu)测。
然(ran)而,我(wo)们(men)不(bu)能完全排除Sora是一(yi)个(ge)“世界模拟(ni)器”的假设,或者稍微(wei)不(bu)那么严(yan)谨地说,它是一(yi)个(ge)“世界模型”,这个(ge)概念的弱意义是受到(dao)Othello-GPT等系统的启发。
定义2:一种可学习其输入域(包括三维环境的物理属性等)属性的结构保留、因果效应表征的系统。
作(zuo)为(wei)DiT,Sora本质上(shang)是(shi)一个潜在(zai)(zai)扩散(san)模(mo)型,尽管它有一个Transformer主(zhu)干网络。Sora与像(xiang)Stable Diffusion这样的(de)(de)潜在(zai)(zai)扩散(san)模(mo)型在(zai)(zai)两个重要(yao)方面有所不(bu)同:(1)处理(li)视频(pin)(3D“时(shi)空(kong)”对象)的(de)(de)潜在(zai)(zai)表示,而不(bu)是(shi)图像(xiang);(2)其规(gui)模(mo)可(ke)能要(yao)大(da)得多,并且在(zai)(zai)更多的(de)(de)数据上(shang)进行(xing)训练。因此,我们(men)可(ke)以(yi)预(yu)期,Stable Diffusion在(zai)(zai)潜在(zai)(zai)空(kong)间中的(de)(de)3D几何图形,可(ke)以(yi)转化为(wei)像(xiang)Sora这样的(de)(de)系统;我们(men)也可(ke)以(yi)预(yu)期,Sora能代表其输入域的(de)(de)更多“世界属性”,包括随(sui)时(shi)间展开(kai)的(de)(de)过程属性等。
加里·马库斯(Gary Marcus)等批评(ping)者(zhe)指出(chu),Sora的某(mou)些(xie)输出(chu)结(jie)果(guo)公然违(wei)反(fan)了(le)物(wu)理学原理,以(yi)此(ci)作为反(fan)对模拟假说的证据。OpenAI在(zai)自己的博文和Sora技(ji)术报告中承认了(le)这些(xie)局限性,并提供了(le)一些(xie)特别严重的例(li)子。例(li)如(ru),在(zai)下面摘录的视(shi)频(pin)中,我们可以(yi)看(kan)到(dao)明显的时空不一致,包(bao)括违(wei)反(fan)重力、碰撞动力学、稳固性和物(wu)体永恒性。

▲Sora生成(cheng)的视频(pin)违反重力和碰撞(zhuang)物理(li)学原理(li)

▲Sora生(sheng)成(cheng)的视频违反了实体和客(ke)体永恒性(xing)
首先要注意的(de)(de)是(shi)(shi)(shi)(shi),虽然(ran)(ran)这(zhei)些(xie)不(bu)一(yi)致的(de)(de)现(xian)象(xiang)自然(ran)(ran)会让我们觉得不(bu)可思议,但这(zhei)些(xie)视频也表现(xian)出(chu)了(le)高度(du)的(de)(de)一(yi)致性(xing)。玻璃杯悬浮、液体在玻璃中流动、椅子变形为(wei)奇(qi)(qi)怪的(de)(de)形状、人(ren)在被(bei)遮挡时突然(ran)(ran)出(chu)现(xian)……这(zhei)些(xie)反常现(xian)象(xiang)之所以(yi)让人(ren)觉得奇(qi)(qi)怪,部分原因是(shi)(shi)(shi)(shi)其他一(yi)切(qie)看起来都与人(ren)们预想的(de)(de)差不(bu)多(duo)。这(zhei)就是(shi)(shi)(shi)(shi)为(wei)什么(me)这(zhei)些(xie)输出(chu)结果看起来更像(xiang)是(shi)(shi)(shi)(shi)来自一(yi)个(ge)物理原理奇(qi)(qi)特(te)的(de)(de)世界(jie)的(de)(de)怪异科幻特(te)效(xiao),而(er)不(bu)是(shi)(shi)(shi)(shi)抽象(xiang)混乱的(de)(de)视觉图案。例如(ru),场(chang)景的(de)(de)全(quan)局3D几(ji)何(he)结构相当一(yi)致,各种场(chang)景元素(su)的(de)(de)运动轨迹也是(shi)(shi)(shi)(shi)如(ru)此。
Sora的(de)输(shu)出(chu)结果显然会(hui)在直观物理方(fang)面出(chu)错,就像(xiang)SD的(de)输(shu)出(chu)结果会(hui)在投(tou)影几何方(fang)面出(chu)错一样(yang),但这(zhei)并不能(neng)排除这(zhei)样(yang)一种假设(she),即(ji)该模型在某些方(fang)面的(de)三维几何和动(dong)态表现(xian)是一致的(de)。
我们在讨论Sora架构时提到的一点值得重温。与用于生成图像的潜在扩散模型一样,Sora的生成过程并不是在像素空间中进行的,而是在潜在空间中进行的,即对时空斑块的潜在表征进行编码的空间。这大概率是很重要的一(yi)点,因为一(yi)些评论家认为Sora只是学会了在逐帧像素变化(hua)中插(cha)值(zhi)常见模式。对这一(yi)评价的一(yi)种理解是,Sora只是对像素空(kong)间中视频时(shi)空(kong)“纹理”的常见变换进(jin)行近似(si)处理。
以(yi)(yi)这(zhei)种方式(shi)思考Sora如(ru)何生(sheng)(sheng)成视频(pin)可(ke)(ke)能会产(chan)生(sheng)(sheng)误导(dao)。在(zai)(zai)Sora的架(jia)构(gou)中(zhong),编(bian)码器和解码器之(zhi)间(jian)发生(sheng)(sheng)的一(yi)切(qie)都发生(sheng)(sheng)在(zai)(zai)潜(qian)在(zai)(zai)空间(jian)中(zhong)。正如(ru)对潜(qian)在(zai)(zai)扩(kuo)(kuo)散(san)(san)模(mo)型的研究表(biao)明,深度等属(shu)性的潜(qian)在(zai)(zai)表(biao)征可(ke)(ke)以(yi)(yi)从早期扩(kuo)(kuo)散(san)(san)时间(jian)步开始产(chan)生(sheng)(sheng)因果(guo)效应(ying)(ying)。Sora的情(qing)况(kuang)也可(ke)(ke)能如(ru)此:与场景直观物理(li)相关的属(shu)性的潜(qian)在(zai)(zai)表(biao)征即使在(zai)(zai)早期扩(kuo)(kuo)散(san)(san)时间(jian)步也能对生(sheng)(sheng)成过(guo)程产(chan)生(sheng)(sheng)因果(guo)效应(ying)(ying),这(zhei)并非不可(ke)(ke)信。
杨立昆等人可能不同意这一观点,因为Sora的训练目标是像素级重建,尽管生成过程发生在潜在空间。因此,有人认为Sora对视频场景的潜在表征不可能那么抽象。但是,同样的论点也适用于用于图像生成的潜在扩散模型;而且,我们也有具体证据表明,这些模型确实能学习到有用的深度等特征的抽象表征。也许V-JEPA的表征比Sora的更加抽象和结构化(hua),但(dan)这是一个开放的经验性问题。
结语:视频生成模型,从娱乐到世界模拟的探索
那么(me),像Sora这样的视频生(sheng)成(cheng)模(mo)型是世界模(mo)拟(ni)器吗?
或许在某种程度上是,但不一定是人们所想象的方式。它们的生成过程并不以直观物理的前向时间模拟为条件,就像直观物理引擎那样;但它可能受到3D几何和动态关键方面的潜在表示的影响。
从更弱的(de)(de)(de)意义上(shang)说,Sora可(ke)能(neng)有一个(ge)有限(xian)的(de)(de)(de)世界模(mo)(mo)型(xing)(xing)(xing),就(jiu)像用于图像生成的(de)(de)(de)潜在扩散模(mo)(mo)型(xing)(xing)(xing)有一个(ge)更有限(xian)的(de)(de)(de)世界模(mo)(mo)型(xing)(xing)(xing)一样(yang)。但我(wo)们还不(bu)(bu)能(neng)确定(ding),除非某个(ge)研究(jiu)小组以正确的(de)(de)(de)方式对Sora进行研究(jiu)。OpenAI仍然偶尔进行可(ke)解(jie)释性(xing)研究(jiu),所以还是有希望(wang)的(de)(de)(de);我(wo)们希望(wang)看(kan)到更广泛(fan)的(de)(de)(de)研究(jiu)团队能(neng)在可(ke)解(jie)释性(xing)方面做出(chu)努力,比如Stable Video这(zhei)(zhei)样(yang)的(de)(de)(de)开源视频生成模(mo)(mo)型(xing)(xing)(xing)。虽然这(zhei)(zhei)些模(mo)(mo)型(xing)(xing)(xing)的(de)(de)(de)能(neng)力远不(bu)(bu)如Sora,但它们便(bian)于研究(jiu)。
在(zai)(zai)我(wo)们进行(xing)猜想(xiang)的(de)(de)(de)(de)同时,请允许(xu)(xu)我(wo)对视频生(sheng)成(cheng)模(mo)型(xing)的(de)(de)(de)(de)未来做一(yi)(yi)个简单的(de)(de)(de)(de)推(tui)测(ce)。我(wo)曾说过,Sora并不(bu)是一(yi)(yi)个模(mo)拟器,因为(wei)它并不(bu)是通过先对场景(jing)进行(xing)一(yi)(yi)系列模(mo)拟来预(yu)测(ce)视频帧的(de)(de)(de)(de)。不(bu)过,也许(xu)(xu)Sora或其他(ta)更强大的(de)(de)(de)(de)视频生(sheng)成(cheng)模(mo)型(xing)可以(yi)在(zai)(zai)一(yi)(yi)个更综合的(de)(de)(de)(de)系统(tong)中用作模(mo)拟器。例(li)如,Genie论文的(de)(de)(de)(de)作者们暗示了类(lei)似的(de)(de)(de)(de)模(mo)型(xing)可以(yi)用来为(wei)训(xun)练强化学习智能(neng)体生(sheng)成(cheng)多样化的(de)(de)(de)(de)模(mo)拟环境。未来,我(wo)们可以(yi)想(xiang)象机器人系统(tong)将使用三个主要组件:
(1)一(yi)个大型的视(shi)觉(jue)语(yu)言模(mo)型,用于解(jie)析语(yu)言指令,将其转化(hua)为(wei)计划,并(bing)对视(shi)觉(jue)输入进行推(tui)理;
(2)一个大型的(de)视频生成模型,用于模拟未(wei)来可能(neng)的(de)观察结果,以进行底(di)层规划;
(3)一个(ge)通用的逆动(dong)力学(xue)模(mo)型,用于从这些(xie)模(mo)拟中提取合适的行动(dong),并据(ju)此执行计(ji)划。
也(ye)许(2)和(he)(3)可(ke)(ke)以(yi)(yi)合并到一个(ge)通用的Genie式生(sheng)成模(mo)(mo)(mo)型(xing)中,该模(mo)(mo)(mo)型(xing)具有内置(zhi)的(或者学习到的)表示(shi)(shi)潜在动(dong)作的能力;也(ye)可(ke)(ke)以(yi)(yi)将这三个(ge)模(mo)(mo)(mo)型(xing)合并成一个(ge)巨大(da)的Gato式多模(mo)(mo)(mo)态模(mo)(mo)(mo)型(xing),该模(mo)(mo)(mo)型(xing)可(ke)(ke)以(yi)(yi)解析和(he)生(sheng)成语言、时空(kong)和(he)动(dong)作的标记。这些推测性(xing)的场景揭示(shi)(shi)了从视频的生(sheng)成建(jian)模(mo)(mo)(mo)到更强(qiang)大(da)意(yi)义(yi)上(shang)的“世(shi)界模(mo)(mo)(mo)拟”之间的路径(jing)。
让我们以一(yi)个有趣的(de)(de)(de)(de)开放(fang)性问(wen)题来(lai)(lai)做个总结。无论视(shi)频生成(cheng)模(mo)型(xing)在AI和机(ji)器(qi)人(ren)(ren)技(ji)术的(de)(de)(de)(de)未来(lai)(lai)中扮(ban)演(yan)什么角(jiao)色,人(ren)(ren)们可能会(hui)问(wen),与任何深度学习(xi)模(mo)型(xing)一(yi)样(yang),它(ta)们是(shi)否会(hui)以非(fei)表面的(de)(de)(de)(de)方式与认(ren)知(zhi)科(ke)学相关。正(zheng)如前面讨论的(de)(de)(de)(de)那样(yang),关于(yu)人(ren)(ren)类物(wu)理(li)推理(li)在多大程(cheng)度上依赖于(yu)直观(guan)物(wu)理(li)引擎的(de)(de)(de)(de)显式模(mo)拟(ni),目前仍未达成(cheng)共识(shi)。也许视(shi)频生成(cheng)模(mo)型(xing)的(de)(de)(de)(de)进(jin)展,以及未来(lai)(lai)对其作为(wei)基于(yu)代理(li)架构(gou)的(de)(de)(de)(de)实际模(mo)拟(ni)器(qi)的(de)(de)(de)(de)可行性研究(jiu),会(hui)给(ji)IPE模(mo)型(xing)带来(lai)(lai)一(yi)些压力。这(zhei)也可能会(hui)引发有趣的(de)(de)(de)(de)讨论,即(ji)是(shi)否应将(jiang)能可靠(kao)模(mo)拟(ni)直观(guan)物(wu)理(li)的(de)(de)(de)(de)神(shen)经(jing)网络作为(wei)端到端学习(xi)IPE的(de)(de)(de)(de)核心(xin)机(ji)制,而不(bu)是(shi)作为(wei)直观(guan)物(wu)理(li)IPE模(mo)型(xing)的(de)(de)(de)(de)真正(zheng)替代品。
无论人们(men)对Sora和OpenAI持何(he)种观点,思(si)考视(shi)频生成(cheng)(cheng)模型如何(he)超越其娱乐价值(zhi)而与深度学习和认知科学的(de)关键(jian)研究问题相关,都是(shi)一件令人兴奋的(de)事(shi)情。从(cong)GIF生成(cheng)(cheng)器到世界模拟器,我们(men)拭(shi)目以待。