智东西(公众号:zhidxcom)
编译 | 程茜
编辑 | 心缘
智东西2月20日报道,今日凌晨,微软第一个世界和人类行动模型(WHAM)Muse登上国际顶级学术期刊Nature。
Muse是视频游戏生成模型,其参数量最高达到16亿,是基于接近7年(nian)的人类游戏数据进行训练,其可以理(li)解(jie)游戏中(zhong)的物理(li)和3D环(huan)境,然后生成对应(ying)玩家的动作以及(ji)视(shi)觉(jue)效果。
不过,因为研究工作仍处于早期,目前其仅限于以300×180像(xiang)素的分辨率生成游(you)戏视觉效(xiao)果(guo)。
论文中显示,其生成的游戏视频效果能同时保持一致性(xing)、多样性(xing)和持久性(xing)。具(ju)体来说,其生成(cheng)的(de)两分(fen)钟视频效果(guo)人类真实游戏(xi)效果(guo)相近;会提供不同摄像机移动角(jiao)度、不同角(jiao)色、游戏(xi)工(gong)具(ju)的(de)多(duo)样(yang)性效果(guo);还支(zhi)持开(kai)发者添加新元素,并(bing)自动合理融入画面。

这一模型由微软研究员游戏(xi)智能团队(dui)、可教的AI体验(Tai X,Teachable AI Experiences)团队与微(wei)软旗下游戏工(gong)作室Xbox Games Studios的电子游戏制作公司Ninja Theory合作(zuo)开发。
微软正在开源(yuan)权重和样本数据,并提供了一个可视化的交互界面WHAM Demonstrator供开发者体验,开发者可以在开发人(ren)员(yuan)可以(yi)在Azure AI Foundry上学习试验(yan)权重、示例数据和 WHAM Demonstrator。

论文地址:
一、基于7年人类游戏数据训练,模型参数16亿
Muse上下文长度为1秒,在7 Maps数据集上训练,每张图像都以数据集的原始分辨率300×180编码为540个Tokens。7 Maps数据集的数据量相当于7年多的(de)人类游(you)戏时间。研究人员从Xbox游戏Bleeding Edge的7张游戏地图中提取了大约50万个匿名游戏会话的数据,磁盘上总计27.89TiB。
此外,还有1500万到8.94亿(yi)参数的模型,上(shang)下文长(zhang)度为1秒,在7 Maps过滤后的Skygarden数据(ju)集上(shang)训练,每张图像将以128×128编(bian)码成256个Tokens。该数据(ju)集指的是仅在Skygarden地图上(shang)进行1年匿名游戏的数据(ju)。
微软官(guan)方(fang)发布的示例(li)都是(shi)通过提(ti)示模型使用(yong)10个初(chu)始帧(zhen)(1秒)的人(ren)类游戏(xi)和整(zheng)个游戏(xi)序列的控制器动作来(lai)生成的。
例如,用户可以将视(shi)觉对象作为(wei)初(chu)始(shi)提(ti)示(shi)加(jia)载到模型,下方视(shi)频添加(jia)了Bleeding Edge中的图像,然(ran)后使用Muse从此起点生(sheng)成多个可能的延(yan)续图像。

此外,用户还可以浏览生成的序列并进行调整,例如使用游戏控制器来指导角色。这些功能演示了Muse的功(gong)能如(ru)何将迭代作(zuo)为创(chuang)作(zuo)过程的一部(bu)分。

Muse在生成游戏视频时可以保持一致性、多样性和持久性。
在(zai)一致性方面,下(xia)方视(shi)频(pin)都是基于(yu)基于(yu) Muse生(sheng)成(cheng),两(liang)(liang)段视(shi)频(pin)演(yan)示了(le)该模型生(sheng)成(cheng)长达两(liang)(liang)分钟的一致游戏(xi)序列的能力。

多样性(xing)方面,以相同(tong)的(de)初始10帧(1 秒)真实游戏为条件,下(xia)(xia)面视频中,上方的(de)三个(ge)视频显示(shi)了行为多样性(xing)(不(bu)同(tong)的(de)摄像机(ji)移(yi)动、在生成(cheng)位置附近徘徊以及导航到中间跳(tiao)板的(de)各种路径),下(xia)(xia)方的(de)三个(ge)视频显示(shi)了视觉多样性(xing)(角色(se)的(de)不(bu)同(tong)悬浮(fu)板)。

在(zai)持续性方面,模型还(hai)(hai)可(ke)以在(zai)修(xiu)改(gai)游戏序列时提示(shi)(shi)它并保留(liu)(liu)新(xin)(xin)(xin)引入的元素。例如(ru),在(zai)下面的演示(shi)(shi)中,可(ke)以看到新(xin)(xin)(xin)角色被添(tian)加到游戏的原始(shi)视觉对(dui)象中,视频中这一新(xin)(xin)(xin)角色会(hui)保留(liu)(liu),还(hai)(hai)会(hui)在(zai)后续视频中继(ji)续存在(zai)。

此外,论文(wen)中(zhong)还提(ti)到Muse训练的数据是通过与Ninja Theory的合作提供的,数据收集由最终用户许可协议涵盖,研究人员对数据的使用受与游戏工作室的数据共享协议的约束,并由机构审查委员会批准。这些数据是在2020年9月至2022年10月期间记录的。为了最大限度地降低人类数据的风险,他们已从数据中删除了任何个人身份信息(Xbox用户ID),并对结果数据进行清理,以删除非活跃玩家的数据。
二、多学科协作评估,确定三大模型能力
在早期,研究人员首先总结了27名从事(shi)游戏(xi)开发的(de)创意人员(yuan)的(de)用(yong)户研究(jiu)结(jie)果,以评估发散思(si)维和(he)迭代实践在使用(yong)生(sheng)成(cheng)式AI实现新(xin)颖(ying)性(xing)设计的(de)重要作用(yong)。基于这些见解,他们确定(ding)了一组(zu)可能(neng)对实现创造性(xing)构思(si)很重要的(de)生(sheng)成(cheng)模型能(neng)力,即一致性(xing)、多样性(xing)和(he)持久性(xing)。
其中,一致性(xing)可以使得生成的序列随时间推移并与游戏机制保持一致,多样性允许模型产生大量不同的序列,反映不同的潜在结果,以支持发散性思维,持(chi)久性使得用户对游戏视觉效果和控制器动作进行修改,并将它们同化(hua)到生成的(de)游戏序列中。

Muse基于人类游戏数据进行训练,以预测游戏视觉效果(“帧”)和玩家的控制器动作(“模型架构和数据”部分)。生成的模型准确捕获了游戏环境的3D结构(“模型评估”部分)、控制器动作的(de)效(xiao)果和游戏的(de)时间结(jie)构(gou),使得(de)其生成的(de)视(shi)频(pin)可(ke)以(yi)连(lian)贯(guan)、一致且(qie)具(ju)有(you)多样性。
对于Xbox控制器动作,尽管按钮本身是离散的,但研究人员将左右摇杆的x和y坐标离散为11个Buckets,然后训练一个仅解码器的转换器来预测交错图像和控制器动作序列中的下一个Tokens。生成的模型可以通过对下一个Tokens进行自回归采样来生成新的序列。生成过程中,研究人员还可以修改Tokens,以允许修改图像或者控制器(qi)动(dong)作(zuo)。
微软高级研究员Tabish Rashid提到:“最初分配H100是(shi)相当艰巨(ju)的(de),尤其是(shi)在(zai)早(zao)期阶段,要(yao)弄清(qing)楚如何最好(hao)地利用它来扩(kuo)展到带(dai)有新图像编码器的(de)更大(da)型号。经(jing)过数月的(de)实(shi)验(yan),终于在(zai)不同的(de)地图上看(kan)到模型的(de)输出,并且不必眯着眼睛看(kan)较小的(de)图像,这是(shi)非常(chang)有益的(de)。”
三、生成效果接近人类真实水平,新角色也能合理融入
论文(wen)阐释了研究人(ren)员对模型一(yi)致性、多样性和持久性的具体(ti)评估结果。
研究人员通过Fréchet视频距离 (FVD)衡量一致性效果。研究中使用模型生成游戏视觉效果,以包含视频和控制器动作的1秒游戏体验为条件,再加上人类玩家在接下来的9秒内的游戏过程中采取的控制器动作,可以看出生成的游戏玩法与真实情(qing)况匹配。


为了评估模型的持久性,研究人员通过插入游戏内对象、其他玩家、地图元素之一来手动编辑游戏图像。结果表明,Muse能够保留已插入到看似合理但新的起始位置的常见游戏元素。

结语:微软世界模型,开启重塑游戏体验新大门
微(wei)软新推出的世界(jie)模(mo)型为我(wo)们呈(cheng)现了生成式AI在游(you)戏领域的巨大潜力,正如(ru)其(qi)在示(shi)例中所言,这样的模(mo)型既可(ke)以学习(xi)游(you)戏世界(jie)的丰富结构,还能展示(shi)如(ru)何(he)进一步支持模(mo)型的创(chuang)造性使用。这可(ke)能会从根本(ben)上(shang)改变(bian)用户未来(lai)保(bao)存和体验经典(dian)游(you)戏的方式,并使更(geng)多(duo)玩家(jia)接(jie)触到(dao)它们。
同(tong)时,他(ta)们一开始通过与多学科(ke)人(ren)员的(de)协作,以找到构(gou)建(jian)模(mo)型能(neng)力(li)满足创意人(ren)员需(xu)求的(de)切入点,也为模(mo)型在不同(tong)场景的(de)应用提供(gong)了(le)经验。
目前,微软已(yi)经开源(yuan)了权重和样本(ben)数(shu)据,会加速开发者基于此进行后(hou)续(xu)研究,或许会在(zai)不久的将来诞(dan)生基于AI的新颖(ying)游戏(xi)体验,挖掘出AI在(zai)游戏(xi)应用的更多应用场景。