1句话生成可玩的3D世界！谷歌Genie3震圈登场，世界模型终于迎来ChatGPT时刻

智东西（公众号：zhidxcom）
编译 | 程茜
编辑 | 李水青

智东西8月6日消息，昨夜，谷歌DeepMind宣布推出通用世界模型Genie 3，首个(ge)可(ke)实时交互世界模型来了。

基于文本(ben)提示，Genie 3可以允许用户以每(mei)秒24帧的速度，以720p的分辨率生(sheng)成(cheng)长(zhang)达(da)数分钟(zhong)的交互式3D环(huan)境(jing)，Genie 2仅能生(sheng)成(cheng)10到20秒。

1句话生成可玩的3D世界！谷歌Genie3震圈登场，世界模型终于迎来ChatGPT时刻

去年年底，谷歌DeepMind发布能生成各种可控制动作、可玩3D环境的大型基础世界模型Genie 2，此次发布的Genie 3，是其第一个允许实时交互的世界模型，在一致(zhi)性和真实感方面相较前(qian)代有提(ti)升(sheng)。如下面的(de)示例(li)中，Genie 3生成内(nei)容(rong)的(de)机器(qi)人本体(ti)、周围(wei)环境质感更佳：

1句话生成可玩的3D世界！谷歌Genie3震圈登场，世界模型终于迎来ChatGPT时刻

博客文章中，谷歌DeepMind放出了数十个Genie 3的生成案例，展示其在模(mo)(mo)拟世(shi)界(jie)物理特性、模(mo)(mo)拟自然世(shi)界(jie)、生成动画和小说建模(mo)(mo)、超越(yue)地(di)理时间限(xian)制生成内容(rong)的能力。此外，研究人员还将其应用到具身(shen)Agent研究，如指示Agent向Genie 3发送(song)导航操作，实现在花(hua)园(yuan)里(li)靠近(jin)软管的任务：

1句话生成可玩的3D世界！谷歌Genie3震圈登场，世界模型终于迎来ChatGPT时刻

谷歌DeepMind Genie 3与Genie 2、由神经模型驱动的(de)游戏引擎GameNGen、视频生成(cheng)模型Veo对比，最突出的(de)特点(dian)是其生成(cheng)时长(zhang)翻倍增长(zhang)：

1句话生成可玩的3D世界！谷歌Genie3震圈登场，世界模型终于迎来ChatGPT时刻

此次，谷歌DeepMind宣布以有限研究预览版的形式发布Genie 3，为一(yi)小部分学(xue)者(zhe)和创(chuang)作者(zhe)提供早(zao)期使用机会。在博客(ke)的(de)致(zhi)谢部分，还出现了(le)被(bei)谷歌挖(wa)来的(de)OpenAI视频生成工具Sora的(de)联合负责(ze)人之(zhi)一(yi)蒂姆(mu)·布鲁克斯(si)（Tim Brooks）。

1句话生成可玩的3D世界！谷歌Genie3震圈登场，世界模型终于迎来ChatGPT时刻

网(wang)友(you)(you)在谷歌DeepMind的X评(ping)论区疯狂(kuang)开(kai)启(qi)夸夸夸模(mo)式，有(you)网(wang)友(you)(you)将(jiang)其的重要性与(yu)ChatGPT、Sora发布对(dui)标：

1句话生成可玩的3D世界！谷歌Genie3震圈登场，世界模型终于迎来ChatGPT时刻

还(hai)有网友认(ren)为这(zhei)是3A游戏大作的未来，还(hai)能在(zai)VR、电视互动节目(mu)中有很大应用场景：

1句话生成可玩的3D世界！谷歌Genie3震圈登场，世界模型终于迎来ChatGPT时刻

一位Reddit上的开(kai)发(fa)者认为Genie 3的发(fa)布，意(yi)味着理论上而言“只要有足够的计算能力和实时(shi)数据……就可(ke)以让整个世(shi)界变得可(ke)玩(wan)”。

1句话生成可玩的3D世界！谷歌Genie3震圈登场，世界模型终于迎来ChatGPT时刻

本文动(dong)图均(jun)只截取了Genie 3生成内容(rong)的部分片段，完整案例演示(shi)请查看原(yuan)博客：

博客链(lian)接：//deepmind.google/discover/blog/genie-3-a-new-frontier-for-world-models/?utm_source=x&utm_medium=social&utm_campaign=genie3

一、模拟真实世界物理特性、动植物逼真，动画小说建模画面自然

此前世界模型在很大程度上局限于建模狭窄的领域。Genie 1引入了一种生成各种2D世界的方法，Genie 2进一步在通用性上取得进展，可以生成种类繁多的丰富3D世界，现在Genie 3不仅(jin)在生成(cheng)3D世(shi)界的真实性(xing)、一致性(xing)上取得(de)进展，还引入了实时(shi)互(hu)动能(neng)力(li)。

以(yi)下(xia)是Genie 3生(sheng)成的实(shi)时互(hu)动内容：

1、模拟世界的物理特性：复杂环境没有失真

下面的(de)(de)案例中，3D世(shi)界在表现水蔓延到马路(lu)上、海平面、灯光映(ying)照(zhao)在水面的(de)(de)光影(ying)变化等(deng)都(dou)没有失真。

1句话生成可玩的3D世界！谷歌Genie3震圈登场，世界模型终于迎来ChatGPT时刻

2、模拟自然世界：动植物表现逼真

Genie 3可以创建(jian)从动(dong)物到植物等(deng)各种复杂且充(chong)满活力的生态系统，如下面演示的庭院、湖泊、海底世界(jie)等(deng)。

1句话生成可玩的3D世界！谷歌Genie3震圈登场，世界模型终于迎来ChatGPT时刻

3、动画和小说建模：动画人物活灵活现

Genie 3还能创建动(dong)画(hua)(hua)场景以及动(dong)画(hua)(hua)人(ren)物，动(dong)画(hua)(hua)人(ren)物的色彩、形(xing)象都符合整体(ti)环境。

1句话生成可玩的3D世界！谷歌Genie3震圈登场，世界模型终于迎来ChatGPT时刻

4、突破时空界限：探索未知地点和过去时刻

Genie 3创建的(de)内容可以超越地理和时间界(jie)限(xian)，探索未知(zhi)的(de)地方(fang)或者过去的(de)时代，如(ru)下面(mian)的(de)翼装飞行(xing)、山(shan)地骑车等场景。

1句话生成可玩的3D世界！谷歌Genie3震圈登场，世界模型终于迎来ChatGPT时刻

二、支持一个世界切换天气、引入新角色，演示具身Agent应用潜力

除了导航输入之外，Genie 3还支持基于文本的交互形式，谷歌DeepMind的博客将其称为可提示的世界事件。也就是说，其可(ke)以改(gai)变(bian)已(yi)经生成的世(shi)界(jie)，如改(gai)变(bian)当前(qian)世(shi)界(jie)的天气条件、引入新物体等。

这(zhei)种能(neng)力(li)还扩展(zhan)了模(mo)型对(dui)反(fan)事(shi)实或假设场(chang)景(jing)的学习，Agent可以从经验(yan)中学习这(zhei)些场(chang)景(jing)来(lai)处(chu)理(li)意外情况。

如下(xia)面(mian)的演示(shi)(shi)中，在给定(ding)的“草(cao)原(yuan)”场(chang)景中，案(an)例演示(shi)(shi)可以看(kan)到棕熊、绿色拖拉机、骑马(ma)的人分别进入画面(mian)。

1句话生成可玩的3D世界！谷歌Genie3震圈登场，世界模型终于迎来ChatGPT时刻

此外，为了测试Genie 3创建的(de)(de)世(shi)界与未来Agent训练的(de)(de)兼容(rong)性，研究人员为用于3D虚拟场景的通用Agent SIMA生成(cheng)了世界。

在每个世(shi)界(jie)中，其都指示Agent完成不同任务，并通过向Genie 3发送导航操(cao)作(zuo)(zuo)来实现(xian)这些目(mu)标。与(yu)其他环境一样，Genie 3并不知道代理的目(mu)标，而是根据代理的操(cao)作(zuo)(zuo)来模拟未来。

下面(mian)的“面(mian)包店”场(chang)景中(zhong)，演(yan)示出分(fen)别给出了(le)走进(jin)搅(jiao)拌机、前(qian)往冷却(que)架(jia)、走到玻璃柜(ju)前(qian)的任(ren)务：

1句话生成可玩的3D世界！谷歌Genie3震圈登场，世界模型终于迎来ChatGPT时刻

在(zai)给定的(de)“市场(chang)”环境中，案例分别演示(shi)了走进(jin)花摊、去面包(bao)师(shi)那里等(deng)任务：

1句话生成可玩的3D世界！谷歌Genie3震圈登场，世界模型终于迎来ChatGPT时刻

在具身Agent的研究(jiu)领域，研究(jiu)人员就可以选(xuan)(xuan)择一个世(shi)界(jie)设(she)定，然后选(xuan)(xuan)择希望Agent实(shi)现的目(mu)标并(bing)观察它如何实(shi)现目(mu)标。

基于(yu)Genie 3在保持一致性方面的(de)(de)优势，现(xian)在其(qi)可以执行更长的(de)(de)操作(zuo)序(xu)列，从而实现(xian)更复杂的(de)(de)目标。

三、环境几分钟内可保持一致，Genie 3仍有五大局限性

Genie 3通过记忆已生成的(de)内(nei)容(rong)并进(jin)行长期推理，自学世界中的(de)物体如何移动、下落和互动。该模型是自回归(gui)的(de)，这(zhei)意(yi)味着它一次只生成一帧，其必须回顾之前生成的(de)内(nei)容(rong)，才能(neng)决定下一步(bu)要做什(shen)么(me)。这(zhei)是该架构的(de)关键部(bu)分(fen)。

为了实现Genie 3生成(cheng)内容高度可控且能实时(shi)交互，在每一帧的(de)自(zi)回归(gui)生成(cheng)过程中，模(mo)(mo)型必须(xu)(xu)考虑先前生成(cheng)的(de)轨迹。例(li)如(ru)，如(ru)果用户在一分钟后再次访问某个位置(zhi)，模(mo)(mo)型必须(xu)(xu)参考一分钟前的(de)相(xiang)关信息。

同时为(wei)了实现实时交(jiao)互性，这种(zhong)计算必(bi)须每秒(miao)进(jin)行多次，以响应新的用(yong)户输(shu)入。

想要使AI生(sheng)成的世界具(ju)有沉(chen)浸感，生(sheng)成内容必须在很长一(yi)段时间内保持物理一(yi)致(zhi)性。然而，自回归生(sheng)成环(huan)境通常(chang)比(bi)生(sheng)成完整视频更难(nan)，因为误差往(wang)(wang)往(wang)(wang)会随着时间的推移而累积。

Genie 3的环境在几分钟内(nei)仍能(neng)保持基本一(yi)致，视觉记忆可(ke)以追溯到一(yi)分钟前(qian)。如下图所示(shi)的(de)“建筑物左(zuo)侧的(de)树(shu)木”，在互动过程中(zhong)始终保(bao)持一致(zhi)：

1句话生成可玩的3D世界！谷歌Genie3震圈登场，世界模型终于迎来ChatGPT时刻

其博客提到，Genie 3的一致性是一项新兴能力。NeRF和高斯分布等方法在实现一致的可导航3D环境同时，需要依赖于提供明确的3D表示，相比之下，Genie 3生成的(de)世界(jie)是(shi)根据世界(jie)描述和用户操作逐帧创(chuang)建(jian)的(de)，因此生成内容更(geng)为丰富(fu)、真实。

Genie 3通过记忆已生(sheng)成(cheng)的(de)(de)内(nei)容(rong)并(bing)进行长期推(tui)理(li)，自(zi)(zi)学世(shi)界中(zhong)的(de)(de)物体(ti)如(ru)何移动、下落和(he)互动。该模(mo)型是自(zi)(zi)回(hui)归(gui)的(de)(de)，这意味着它一(yi)次只生(sheng)成(cheng)一(yi)帧，其必(bi)须回(hui)顾之前生(sheng)成(cheng)的(de)(de)内(nei)容(rong)，才能决定下一(yi)步要(yao)做什么(me)。这是该架构的(de)(de)关(guan)键部分。

谷歌DeepMind的博(bo)客中也提到了(le)Genie 3目前的局限(xian)性：

行(xing)动空间(jian)有(you)限：尽管可触(chu)发的(de)世界事件(jian)允许进行(xing)广(guang)泛的(de)环境干预，但它们不一定由Agent本身执行(xing)，Agent可直接(jie)执行(xing)的(de)操(cao)作范围目前受到限(xian)制(zhi)；

与其他(ta)Agent的交互和模拟：准(zhun)确建模(mo)共享环境中多个独立(li)Agent之(zhi)间(jian)的复杂交互仍然(ran)是(shi)一个持(chi)续(xu)的研究挑战(zhan)；

准确表示真实世界的(de)位置：Genie 3目前无法以完美(mei)的(de)地理(li)精度模拟真实(shi)世界(jie)的(de)位置(zhi)；

文本(ben)渲染：通常只有在输入世界描(miao)述中提供时(shi)才会生成清(qing)晰易读的文(wen)本(ben)；

交(jiao)互时长有限：该模型目前(qian)支持(chi)几分钟的持(chi)续(xu)交(jiao)互(hu)，无法支持(chi)长(zhang)达数小(xiao)时的交(jiao)互(hu)。

在此基础(chu)上，谷歌DeepMind宣(xuan)布(bu)Genie 3以有(you)限研究预览(lan)版的形式发布(bu)，使(shi)其(qi)能够从其(qi)他学者处收集重要的反馈和(he)提供跨学科视角。

结语：谷歌DeepMind深耕模拟环境研究，或加速AI Agent训练

此前十多年来，谷歌(ge)DeepMind一直(zhi)致力于模(mo)拟(ni)环境领域(yu)的开(kai)创性研究，从(cong)训练Agent掌握实(shi)时战略游戏，到开(kai)发(fa)用于开(kai)放式学习和机器(qi)人技(ji)术的模(mo)拟(ni)环境，再(zai)到开(kai)发(fa)世(shi)界模(mo)型。

去年，其推(tui)出Genie 1和(he)Genie 2两大基础世(shi)界模型，可以(yi)为Agent生(sheng)成(cheng)(cheng)新的环境，并(bing)发布视频(pin)生(sheng)成(cheng)(cheng)模型Veo 2和(he)Veo 3。

可以看出(chu)，这(zhei)些AI系(xi)统能(neng)够(gou)利(li)用(yong)自身对世(shi)界(jie)的(de)理解来模拟(ni)世(shi)界(jie)的(de)各个方面，使(shi)(shi)Agent能(neng)够(gou)预测(ce)环境将(jiang)如何演(yan)变以及其(qi)行为将(jiang)如何影响(xiang)环境。谷(gu)歌DeepMind的(de)博客(ke)提到，世(shi)界(jie)模型(xing)是迈向通用(yong)人工智能(neng)（AGI）的(de)关键基石，因为它们使(shi)(shi)得在(zai)丰富多(duo)样的(de)模拟(ni)环境中训练AI Agent成为可能(neng)。

从目前的(de)应用(yong)场景(jing)来看，Genie 3或许(xu)可以为机器人和(he)自(zi)主(zhu)系统等提供训练空间(jian)并评估其表现。未来，这项技术(shu)或许(xu)能(neng)在(zai)我们迈向AGI的(de)过程(cheng)中发挥关键(jian)作用(yong)。

国产成人亚洲精品狼色在线,亚洲成色www久久网站,强制高潮(h)调教,大伊香蕉在线精品视频75,日本无码少妇成人久久丫

一、模拟真实世界物理特性、动植物逼真，动画小说建模画面自然

二、支持一个世界切换天气、引入新角色，演示具身Agent应用潜力

三、环境几分钟内可保持一致，Genie 3仍有五大局限性

结语：谷歌DeepMind深耕模拟环境研究，或加速AI Agent训练

相关推荐