智东西(公众号:zhidxcom)
编译 | 程茜
编辑 | 李水青

智东西8月6日消息,昨夜,谷歌DeepMind宣布推出通用世界模型Genie 3首个(ge)可(ke)实时交互世界模型来了。

基于文本(ben)提示,Genie 3可以允许用户以每(mei)秒24帧的速度,以720p的分辨率生(sheng)成(cheng)长(zhang)达(da)数分钟(zhong)的交互式3D环(huan)境(jing),Genie 2仅能生(sheng)成(cheng)10到20秒。

1句话生成可玩的3D世界!谷歌Genie3震圈登场,世界模型终于迎来ChatGPT时刻

去年年底,谷歌DeepMind发布能生成各种可控制动作、可玩3D环境的大型基础世界模型Genie 2,此次发布的Genie 3,是其第一个允许实时交互的世界模型,在一致(zhi)性和真实感方面相较前(qian)代有提(ti)升(sheng)。如下面的(de)示例(li)中,Genie 3生成内(nei)容(rong)的(de)机器(qi)人本体(ti)、周围(wei)环境质感更佳:

1句话生成可玩的3D世界!谷歌Genie3震圈登场,世界模型终于迎来ChatGPT时刻

博客文章中,谷歌DeepMind放出了数十个Genie 3的生成案例,展示其在模(mo)(mo)拟世(shi)界(jie)物理特性、模(mo)(mo)拟自然世(shi)界(jie)、生成动画和小说建模(mo)(mo)、超越(yue)地(di)理时间限(xian)制生成内容(rong)的能力。此外,研究人员还将其应用到具身(shen)Agent研究,如指示Agent向Genie 3发送(song)导航操作,实现在花(hua)园(yuan)里(li)靠近(jin)软管的任务:

1句话生成可玩的3D世界!谷歌Genie3震圈登场,世界模型终于迎来ChatGPT时刻

谷歌DeepMind Genie 3与Genie 2、由神经模型驱动的(de)游戏引擎GameNGen、视频生成(cheng)模型Veo对比,最突出的(de)特点(dian)是其生成(cheng)时长(zhang)翻倍增长(zhang):

1句话生成可玩的3D世界!谷歌Genie3震圈登场,世界模型终于迎来ChatGPT时刻

此次,谷歌DeepMind宣布以有限研究预览版的形式发布Genie 3,为一(yi)小部分学(xue)者(zhe)和创(chuang)作者(zhe)提供早(zao)期使用机会。在博客(ke)的(de)致(zhi)谢部分,还出现了(le)被(bei)谷歌挖(wa)来的(de)OpenAI视频生成工具Sora的(de)联合负责(ze)人之(zhi)一(yi)蒂姆(mu)·布鲁克斯(si)(Tim Brooks)。

1句话生成可玩的3D世界!谷歌Genie3震圈登场,世界模型终于迎来ChatGPT时刻

网(wang)友(you)(you)在谷歌DeepMind的X评(ping)论区疯狂(kuang)开(kai)启(qi)夸夸夸模(mo)式,有(you)网(wang)友(you)(you)将(jiang)其的重要性与(yu)ChatGPT、Sora发布对(dui)标:

1句话生成可玩的3D世界!谷歌Genie3震圈登场,世界模型终于迎来ChatGPT时刻

还(hai)有网友认(ren)为这(zhei)是3A游戏大作的未来,还(hai)能在(zai)VR、电视互动节目(mu)中有很大应用场景:

1句话生成可玩的3D世界!谷歌Genie3震圈登场,世界模型终于迎来ChatGPT时刻 1句话生成可玩的3D世界!谷歌Genie3震圈登场,世界模型终于迎来ChatGPT时刻

一位Reddit上的开(kai)发(fa)者认为Genie 3的发(fa)布,意(yi)味着理论上而言“只要有足够的计算能力和实时(shi)数据……就可(ke)以让整个世(shi)界变得可(ke)玩(wan)”。

1句话生成可玩的3D世界!谷歌Genie3震圈登场,世界模型终于迎来ChatGPT时刻

本文动(dong)图均(jun)只截取了Genie 3生成内容(rong)的部分片段,完整案例演示(shi)请查看原(yuan)博客:

博客链(lian)接://deepmind.google/discover/blog/genie-3-a-new-frontier-for-world-models/?utm_source=x&utm_medium=social&utm_campaign=genie3

一、模拟真实世界物理特性、动植物逼真,动画小说建模画面自然

此前世界模型在很大程度上局限于建模狭窄的领域。Genie 1引入了一种生成各种2D世界的方法,Genie 2进一步在通用性上取得进展,可以生成种类繁多的丰富3D世界,现在Genie 3不仅(jin)在生成(cheng)3D世(shi)界的真实性(xing)、一致性(xing)上取得(de)进展,还引入了实时(shi)互(hu)动能(neng)力(li)

以(yi)下(xia)是Genie 3生(sheng)成的实(shi)时互(hu)动内容:

1、模拟世界的物理特性:复杂环境没有失真

下面的(de)(de)案例中,3D世(shi)界在表现水蔓延到马路(lu)上、海平面、灯光映(ying)照(zhao)在水面的(de)(de)光影(ying)变化等(deng)都(dou)没有失真。

1句话生成可玩的3D世界!谷歌Genie3震圈登场,世界模型终于迎来ChatGPT时刻

2、模拟自然世界:动植物表现逼真

Genie 3可以创建(jian)从动(dong)物到植物等(deng)各种复杂且充(chong)满活力的生态系统,如下面演示的庭院、湖泊、海底世界(jie)等(deng)。

1句话生成可玩的3D世界!谷歌Genie3震圈登场,世界模型终于迎来ChatGPT时刻

3、动画和小说建模:动画人物活灵活现

Genie 3还能创建动(dong)画(hua)(hua)场景以及动(dong)画(hua)(hua)人(ren)物,动(dong)画(hua)(hua)人(ren)物的色彩、形(xing)象都符合整体(ti)环境。

1句话生成可玩的3D世界!谷歌Genie3震圈登场,世界模型终于迎来ChatGPT时刻

4、突破时空界限:探索未知地点和过去时刻

Genie 3创建的(de)内容可以超越地理和时间界(jie)限(xian),探索未知(zhi)的(de)地方(fang)或者过去的(de)时代,如(ru)下面(mian)的(de)翼装飞行(xing)、山(shan)地骑车等场景。

1句话生成可玩的3D世界!谷歌Genie3震圈登场,世界模型终于迎来ChatGPT时刻

二、支持一个世界切换天气、引入新角色,演示具身Agent应用潜力

除了导航输入之外,Genie 3还支持基于文本的交互形式,谷歌DeepMind的博客将其称为可提示的世界事件。也就是说,其可(ke)以改(gai)变(bian)已(yi)经生成的世(shi)界(jie),如改(gai)变(bian)当前(qian)世(shi)界(jie)的天气条件、引入新物体等

这(zhei)种能(neng)力(li)还扩展(zhan)了模(mo)型对(dui)反(fan)事(shi)实或假设场(chang)景(jing)的学习,Agent可以从经验(yan)中学习这(zhei)些场(chang)景(jing)来(lai)处(chu)理(li)意外情况。

如下(xia)面(mian)的演示(shi)(shi)中,在给定(ding)的“草(cao)原(yuan)”场(chang)景中,案(an)例演示(shi)(shi)可以看(kan)到棕熊、绿色拖拉机、骑马(ma)的人分别进入画面(mian)。

1句话生成可玩的3D世界!谷歌Genie3震圈登场,世界模型终于迎来ChatGPT时刻

此外,为了测试Genie 3创建的(de)(de)世(shi)界与未来Agent训练的(de)(de)兼容(rong)性,研究人员为用于3D虚拟场景的通用Agent SIMA生成(cheng)了世界。

在每个世(shi)界(jie)中,其都指示Agent完成不同任务,并通过向Genie 3发送导航操(cao)作(zuo)(zuo)来实现(xian)这些目(mu)标。与(yu)其他环境一样,Genie 3并不知道代理的目(mu)标,而是根据代理的操(cao)作(zuo)(zuo)来模拟未来。

下面(mian)的“面(mian)包店”场(chang)景中(zhong),演(yan)示出分(fen)别给出了(le)走进(jin)搅(jiao)拌机、前(qian)往冷却(que)架(jia)、走到玻璃柜(ju)前(qian)的任(ren)务:

1句话生成可玩的3D世界!谷歌Genie3震圈登场,世界模型终于迎来ChatGPT时刻

在(zai)给定的(de)“市场(chang)”环境中,案例分别演示(shi)了走进(jin)花摊、去面包(bao)师(shi)那里等(deng)任务:

1句话生成可玩的3D世界!谷歌Genie3震圈登场,世界模型终于迎来ChatGPT时刻

在具身Agent的研究(jiu)领域,研究(jiu)人员就可以选(xuan)(xuan)择一个世(shi)界(jie)设(she)定,然后选(xuan)(xuan)择希望Agent实(shi)现的目(mu)标并(bing)观察它如何实(shi)现目(mu)标。

基于(yu)Genie 3在保持一致性方面的(de)(de)优势,现(xian)在其(qi)可以执行更长的(de)(de)操作(zuo)序(xu)列,从而实现(xian)更复杂的(de)(de)目标。

三、环境几分钟内可保持一致,Genie 3仍有五大局限性

Genie 3通过记忆已生成的(de)内(nei)容(rong)并进(jin)行长期推理,自学世界中的(de)物体如何移动、下落和互动。该模型是自回归(gui)的(de),这(zhei)意(yi)味着它一次只生成一帧,其必须回顾之前生成的(de)内(nei)容(rong),才能(neng)决定下一步(bu)要做什(shen)么(me)。这(zhei)是该架构的(de)关键部(bu)分(fen)。

为了实现Genie 3生成(cheng)内容高度可控且能实时(shi)交互,在每一帧的(de)自(zi)回归(gui)生成(cheng)过程中,模(mo)(mo)型必须(xu)(xu)考虑先前生成(cheng)的(de)轨迹。例(li)如(ru),如(ru)果用户在一分钟后再次访问某个位置(zhi),模(mo)(mo)型必须(xu)(xu)参考一分钟前的(de)相(xiang)关信息。

同时为(wei)了实现实时交(jiao)互性,这种(zhong)计算必(bi)须每秒(miao)进(jin)行多次,以响应新的用(yong)户输(shu)入。

想要使AI生(sheng)成的世界具(ju)有沉(chen)浸感,生(sheng)成内容必须在很长一(yi)段时间内保持物理一(yi)致(zhi)性。然而,自回归生(sheng)成环(huan)境通常(chang)比(bi)生(sheng)成完整视频更难(nan),因为误差往(wang)(wang)往(wang)(wang)会随着时间的推移而累积。

Genie 3的环境在几分钟内(nei)仍能(neng)保持基本一(yi)致,视觉记忆可(ke)以追溯到一(yi)分钟前(qian)。如下图所示(shi)的(de)“建筑物左(zuo)侧的(de)树(shu)木”,在互动过程中(zhong)始终保(bao)持一致(zhi):

1句话生成可玩的3D世界!谷歌Genie3震圈登场,世界模型终于迎来ChatGPT时刻

其博客提到,Genie 3的一致性是一项新兴能力。NeRF和高斯分布等方法在实现一致的可导航3D环境同时,需要依赖于提供明确的3D表示,相比之下,Genie 3生成的(de)世界(jie)是(shi)根据世界(jie)描述和用户操作逐帧创(chuang)建(jian)的(de),因此生成内容更(geng)为丰富(fu)、真实

Genie 3通过记忆已生(sheng)成(cheng)的(de)(de)内(nei)容(rong)并(bing)进行长期推(tui)理(li),自(zi)(zi)学世(shi)界中(zhong)的(de)(de)物体(ti)如(ru)何移动、下落和(he)互动。该模(mo)型是自(zi)(zi)回(hui)归(gui)的(de)(de),这意味着它一(yi)次只生(sheng)成(cheng)一(yi)帧,其必(bi)须回(hui)顾之前生(sheng)成(cheng)的(de)(de)内(nei)容(rong),才能决定下一(yi)步要(yao)做什么(me)。这是该架构的(de)(de)关(guan)键部分。

谷歌DeepMind的博(bo)客中也提到了(le)Genie 3目前的局限(xian)性:

行(xing)动空间(jian)有(you)限:尽管可触(chu)发的(de)世界事件(jian)允许进行(xing)广(guang)泛的(de)环境干预,但它们不一定由Agent本身执行(xing),Agent可直接(jie)执行(xing)的(de)操(cao)作范围目前受到限(xian)制(zhi);

与其他(ta)Agent的交互和模拟:准(zhun)确建模(mo)共享环境中多个独立(li)Agent之(zhi)间(jian)的复杂交互仍然(ran)是(shi)一个持(chi)续(xu)的研究挑战(zhan);

准确表示真实世界的(de)位置:Genie 3目前无法以完美(mei)的(de)地理(li)精度模拟真实(shi)世界(jie)的(de)位置(zhi);

文本(ben)渲染:通常只有在输入世界描(miao)述中提供时(shi)才会生成清(qing)晰易读的文(wen)本(ben);

交(jiao)互时长有限:该模型目前(qian)支持(chi)几分钟的持(chi)续(xu)交(jiao)互(hu),无法支持(chi)长(zhang)达数小(xiao)时的交(jiao)互(hu)。

在此基础(chu)上,谷歌DeepMind宣(xuan)布(bu)Genie 3以有(you)限研究预览(lan)版的形式发布(bu),使(shi)其(qi)能够从其(qi)他学者处收集重要的反馈和(he)提供跨学科视角。

结语:谷歌DeepMind深耕模拟环境研究,或加速AI Agent训练

此前十多年来,谷歌(ge)DeepMind一直(zhi)致力于模(mo)拟(ni)环境领域(yu)的开(kai)创性研究,从(cong)训练Agent掌握实(shi)时战略游戏, 到开(kai)发(fa)用于开(kai)放式学习和机器(qi)人技(ji)术的模(mo)拟(ni)环境,再(zai)到开(kai)发(fa)世(shi)界模(mo)型。

去年,其推(tui)出Genie 1和(he)Genie 2两大基础世(shi)界模型,可以(yi)为Agent生(sheng)成(cheng)(cheng)新的环境,并(bing)发布视频(pin)生(sheng)成(cheng)(cheng)模型Veo 2和(he)Veo 3。

可以看出(chu),这(zhei)些AI系(xi)统能(neng)够(gou)利(li)用(yong)自身对世(shi)界(jie)的(de)理解来模拟(ni)世(shi)界(jie)的(de)各个方面,使(shi)(shi)Agent能(neng)够(gou)预测(ce)环境将(jiang)如何演(yan)变以及其(qi)行为将(jiang)如何影响(xiang)环境。谷(gu)歌DeepMind的(de)博客(ke)提到,世(shi)界(jie)模型(xing)是迈向通用(yong)人工智能(neng)(AGI)的(de)关键基石,因为它们使(shi)(shi)得在(zai)丰富多(duo)样的(de)模拟(ni)环境中训练AI Agent成为可能(neng)。

从目前的(de)应用(yong)场景(jing)来看,Genie 3或许(xu)可以为机器人和(he)自(zi)主(zhu)系统等提供训练空间(jian)并评估其表现。未来,这项技术(shu)或许(xu)能(neng)在(zai)我们迈向AGI的(de)过程(cheng)中发挥关键(jian)作用(yong)。