智东西(公众号:zhidxcom)
作者 | 程茜
编辑 | 漠影

视频生(sheng)成竞赛愈发(fa)激烈,但细腻、准确(que)地传达人(ren)物面部表情细节仍然(ran)是其中(zhong)的一(yi)大难点。

一(yi)般的(de)(de)(de)影视作(zuo)品或(huo)者日(ri)常交流中,人们说话时伴随着(zhe)的(de)(de)(de)面部表情变化也是准确传递信息(xi)的(de)(de)(de)关键。在视频(pin)生成中,想要(yao)让人物(wu)的(de)(de)(de)整体(ti)表现更加流畅自然,就(jiu)需要(yao)将人物(wu)的(de)(de)(de)动(dong)作(zuo)、皮肤纹理、肌肉运(yun)动(dong)等细节呈现更为细腻。

这对(dui)于AI而言(yan)难度不小。近(jin)期在肖像生成(cheng)方面的一项研究(jiu)突破,就针(zhen)对(dui)于上述难题给(ji)出了解法(fa)。

这就是字节(jie)跳动智能创作团(tuan)队(dui)近期提出的X- Portrait 2单图视(shi)频(pin)驱动技术,仅需(xu)要(yao)一(yi)张静(jing)态图片和一(yi)段(duan)驱动视(shi)频(pin),用户就可(ke)以得到高质量(liang)、电影级的视(shi)频(pin)片段(duan)。

如(ru)果我同(tong)时上(shang)传(chuan)了《白银帝国》中(zhong)演员金(jin)士杰的(de)(de)视(shi)频片段,和一(yi)张AI生(sheng)成的(de)(de)紫(zi)发(fa)外(wai)国女(nv)(nv)生(sheng)的(de)(de)静图,就可以让女(nv)(nv)生(sheng)直(zhi)接复刻电(dian)影片段的(de)(de)动作。

可以(yi)看到(dao),下图中(zhong)静(jing)态图和驱动(dong)(dong)视频中(zhong)的(de)人(ren)物形象(xiang)区别很(hen)大,并且即使人(ren)物表情变(bian)化包含大笑、张大嘴等,X-Portrait 2最后生(sheng)成的(de)效果(guo)也完全没有被影响(xiang),只是集中(zhong)于面部表情、头部动(dong)(dong)作的(de)变(bian)化。

生(sheng)动丰(feng)富的表情(qing)是塑(su)造角色(se)性格的关(guan)键(jian),可以看出,当下(xia)的肖像生(sheng)成技(ji)术正在向着更精细地模拟人(ren)类微观表情(qing)进阶(jie)。

一、经典镜头秒速复刻,大笑、扭头面部均不变形

细致入(ru)微的表(biao)情,往(wang)往(wang)是演员传达情绪的关键,现在(zai)这项(xiang)工作也能被AI接(jie)管了(le)。

在体验这(zhei)(zhei)项技术之(zhi)初,我设(she)定(ding)的初始难度是调(diao)用较少感(gan)官的表情,如(ru)(ru)只(zhi)需要(yao)眨眼、大笑(xiao)等(deng),这(zhei)(zhei)考验的就是X- Portrait 2在生成过程中(zhong),如(ru)(ru)何让静图中(zhong)的人物准确调(diao)用正(zheng)确的感(gan)官,并将情绪准确传(chuan)达出来(lai)。

相信很多人都对(dui)《大话(hua)西游》中紫(zi)霞仙子眨眼的镜头记忆犹新(xin),这也被认为是很难超越的眨眼神图,如果把这个表情(qing)搬到著(zhu)名表情(qing)包“金馆长”脸上呢?

可(ke)以(yi)看(kan)到(dao),最后生(sheng)成的(de)视频(pin)中(zhong),金馆长的(de)眼睛被放大,从抿嘴到(dao)眨眼一气呵成,面(mian)部完全没有(you)变(bian)形,直接复刻(ke)了这一经典画(hua)面(mian)。

那如果将金(jin)馆长(zhang)的(de)经典大(da)笑表情(qing)包放到其他人脸上呢?我利用豆(dou)包生成(cheng)了(le)一(yi)张(zhang)科幻属性明(ming)显的(de)人物图像,然后上传了(le)金(jin)馆长(zhang)从大(da)笑到说话(hua)的(de)视频(pin)片段(duan)。

静(jing)态图中的(de)人物不仅模仿了(le)金馆长的(de)大笑(xiao)神态,就连大笑(xiao)时面(mian)部(bu)的(de)皱纹、头部(bu)的(de)轻微上下摆(bai)动动作(zuo)都传递的(de)十(shi)分(fen)到位。

考验完单一表情,再来看下进阶难度。

这一关的原视(shi)(shi)频人物说话过程(cheng)中(zhong)(zhong)会(hui)伴随情绪的转换(huan),例如下个视(shi)(shi)频中(zhong)(zhong)张译(yi)表演时的花(hua)絮片段(duan),从(cong)刚开始说话到扭头(tou)大(da)笑。

然后我(wo)上传了一张美(mei)国著名男演员本(ben)·阿弗(fu)莱克(Ben Afflec)的(de)(de)剧照(zhao),生成视频中,大本(ben)和张译大笑(xiao)时咧开的(de)(de)嘴(zui)角弧度都(dou)完全(quan)相同。并且从侧脸转向正(zheng)脸时的(de)(de)动(dong)作也十分流畅。

二、阿凡达、灭霸梦幻联动,人人都能做出迪士尼公主表情

X-Portrait 2除了能让一(yi)张图片按你(ni)想要的风格(ge)动起来,还能把相同表情(qing)直接搬到各(ge)种风格(ge)的人物(wu)形(xing)象(xiang)上。

基于(yu)此,我直接让经(jing)典科幻(huan)电影《阿凡(fan)达》中(zhong)的阿凡(fan)达,与漫威系列(lie)中(zhong)的灭霸来了一场梦幻(huan)联(lian)动。

我上传(chuan)了一(yi)段(duan)电影中女主角(jiao)涅提(ti)妮与(yu)他人(ren)产生剧烈争执的视(shi)频(pin),还有一(yi)张(zhang)灭霸的静态图(tu)片。视(shi)频(pin)中的涅提(ti)妮边倒退边显露(lu)出悲(bei)伤的神色。

灭霸也展现出(chu)了同样(yang)的(de)深(shen)情,并且额(e)头上的(de)皱纹还会伴(ban)随着情绪(xu)变化逐渐(jian)加(jia)深(shen)。

动画(hua)电影中(zhong)迪士(shi)尼公主的(de)神态动作(zuo)已经自成(cheng)体系,让人一看到(dao)就身处“迪士(shi)尼宇宙”。与(yu)此同时(shi),一些互联网上(shang)的(de)博(bo)主纷纷开启了模(mo)仿迪士(shi)尼公主的(de)挑战(zhan),她(ta)们的(de)表情神态惟妙惟肖,现在(zai)X-Portrait 2可(ke)以让任何人都能快速get这个技能。

这(zhei)里我选择(ze)上(shang)传了一张AI生(sheng)(sheng)成的(de)动漫(man)人物形(xing)象,以及(ji)短(duan)视(shi)频平台(tai)中(zhong)博主上(shang)传的(de)模仿(fang)视(shi)频。可以看到,原视(shi)频的(de)博主眼(yan)神(shen)、嘴部以及(ji)整个表情都很夸张,这(zhei)个难度(du)X-Portrait 2的(de)生(sheng)(sheng)成效果(guo)并没(mei)有翻车。

我还(hai)上(shang)传了其他(ta)博主的模(mo)仿视频(pin),生成的效果直接(jie)让本来只是一张静态(tai)图片(pian)的公(gong)主,直接(jie)身(shen)处(chu)童话(hua)世界了,好(hao)奇(qi)、开(kai)心的表情十分可爱(ai)逼真。

现在有很(hen)多(duo)动(dong)画电影还(hai)会(hui)被改(gai)编成真人(ren)电影,但这类电影在选择(ze)演(yan)(yan)员、剧(ju)情改(gai)编、演(yan)(yan)员表(biao)演(yan)(yan)等方面都会(hui)让原先的动(dong)漫读者(zhe)忐忑不安,因为很(hen)多(duo)剧(ju)情真人(ren)演(yan)(yan)员很(hen)难(nan)表(biao)演(yan)(yan)出(chu)来,部(bu)分表(biao)情、动(dong)作甚至剧(ju)情会(hui)被改(gai)编。

现(xian)在基于X-Portrait 2可以直接(jie)将动(dong)漫人物的表情(qing)“复(fu)制”下来,“粘贴”到(dao)其他人物上。我上传了一段《美(mei)女与野(ye)兽》中“野(ye)兽”的一段视频,视频中“野(ye)兽”的五官与人类类似(si),还伴(ban)随着大吼的动(dong)作。

这段表(biao)演被准确(que)复(fu)制到了我用AI生成的(de)图片(pian)上(shang),X-Portrait 2在表(biao)情识别(bie)方面没有受(shou)到干扰(rao),眼睛、嘴巴(ba)的(de)动(dong)作变化丝滑(hua)流畅,复(fu)刻(ke)了“野兽”的(de)愤(fen)怒情绪(xu)。

可(ke)(ke)以(yi)看(kan)出(chu),X-Portrait 2在表(biao)情(qing)生成方面(mian)(mian)的(de)效果(guo)逼真(zhen)程度(du)可(ke)(ke)以(yi)体现在,眼部、嘴部的(de)动(dong)作(zuo)以(yi)及表(biao)情(qing)切换、动(dong)作(zuo)协(xie)(xie)同性等(deng)诸(zhu)多方面(mian)(mian),能让静态形象的(de)表(biao)情(qing)生成与其他动(dong)作(zuo)配合协(xie)(xie)同。

三、表情编码器模型+生成扩散模型,实现表情“复刻”效果跃迁

上(shang)述这些肖像(xiang)生成的惊艳效(xiao)果(guo)均出自X-Portrait 2。

今(jin)年3月,字节跳动的(de)(de)第一(yi)代肖像(xiang)(xiang)动画模(mo)型X-Portrait,可(ke)以用于(yu)生成(cheng)富(fu)有表(biao)现力(li)和时间连贯的(de)(de)肖像(xiang)(xiang)动画。X-Portrait 2就是这(zhei)一(yi)肖像(xiang)(xiang)动画模(mo)型的(de)(de)迭代版本,能(neng)够(gou)如(ru)实(shi)表(biao)现快(kuai)速的(de)(de)头部动作、细微的(de)(de)表(biao)情(qing)变化以及强烈的(de)(de)个人(ren)情(qing)感。

为了(le)让最后生成视频的(de)表情更加流畅、逼真,X-Portrait 2结合了(le)表情编(bian)码器模型和(he)生成扩散(san)模型,能(neng)够捕捉到(dao)驱动视频中演(yan)员的(de)细微表情,甚至于(yu)撅嘴、吐舌头等需要调动多(duo)个(ge)面部器官的(de)表情也能(neng)准确传达。

这一表(biao)情(qing)编码(ma)器(qi)模型是(shi)基于(yu)大型数据集进行(xing)训练(lian),隐式(shi)编码(ma)输入中(zhong)的(de)每个(ge)微小表(biao)情(qing),就可以做(zuo)到表(biao)情(qing)传达的(de)准确性。

面对驱动(dong)视频,这一编码器(qi)还可以实现(xian)人物外观(guan)和表情动(dong)作(zuo)的(de)(de)强分离,能够让(rang)其(qi)更专注(zhu)于(yu)视频中与(yu)表情相(xiang)关(guan)的(de)(de)信息,从而实现(xian)表情动(dong)作(zuo)的(de)(de)准确迁移。

通(tong)过(guo)为模型设计过(guo)滤层,编码器能有效过(guo)滤运动(dong)(dong)表(biao)征(zheng)中(zhong)(zhong)的ID相关信号,使得即使ID图片与驱动(dong)(dong)视频中(zhong)(zhong)的形(xing)象和风格差异(yi)较大,模型仍可实现跨(kua)ID、跨(kua)风格的动(dong)(dong)作迁移,涵盖(gai)写实人像和卡通(tong)图像。

目(mu)前,除了X-Portrait 2,视(shi)频生(sheng)成创(chuang)企(qi)Runyway上(shang)个(ge)月(yue)也(ye)推(tui)出了类似的功能(neng)Act-One,这一(yi)功能(neng)可以让(rang)用(yong)户自己录(lu)一(yi)段视(shi)频,然(ran)后将其转移到AI生(sheng)成的角色上(shang)。

相比之下,X-Portrait 2可以更(geng)准(zhun)确(que)地传递人(ren)(ren)物头(tou)部的(de)动作、微笑的(de)表(biao)情变(bian)化(hua)和个人(ren)(ren)情感表(biao)达;Act-One最终(zhong)生成的(de)视频也(ye)可以传达表(biao)情,但(dan)在人(ren)(ren)物情绪(xu)和快速的(de)头(tou)部动作方面可能无法准(zhun)确(que)“复刻(ke)”。

下图的对比视(shi)(shi)频中(zhong)(zhong)可以看(kan)出,原视(shi)(shi)频中(zhong)(zhong)人(ren)物(wu)(wu)很悲伤,且说(shuo)话中(zhong)(zhong)头部有轻微(wei)转动(dong),但基(ji)于(yu)X-Portrait和Act-One生成的视(shi)(shi)频都没有将其体现(xian)出来,X-Portrait视(shi)(shi)频中(zhong)(zhong)人(ren)物(wu)(wu)头部摆动(dong)幅度复现(xian)了,但两(liang)个视(shi)(shi)频中(zhong)(zhong)的人(ren)物(wu)(wu)表情有轻微(wei)笑意,与(yu)原视(shi)(shi)频的情绪完全不同。

面部(bu)细节(jie)还原(yuan)、头(tou)部(bu)动作(zuo)与姿态的协(xie)调(diao)等,都是(shi)做(zuo)到精准表情生(sheng)成(cheng)的关键(jian),这也是(shi)目(mu)前X-Portrait 2的优势所在(zai)。

结语:让视频生成突破表情细节难题

在视频生(sheng)(sheng)成(cheng)(cheng)的(de)众多(duo)环节中,表(biao)情(qing)生(sheng)(sheng)成(cheng)(cheng)是一个极具(ju)挑战性的(de)部(bu)分,因为(wei)与人物整体的(de)动(dong)作生(sheng)(sheng)成(cheng)(cheng)相比,细致入微的(de)表(biao)情(qing)生(sheng)(sheng)成(cheng)(cheng)要困难得(de)多(duo),一个细微的(de)面部(bu)肌肉变化(hua)都可能传达出截(jie)然不同的(de)情(qing)绪。

尽管这(zhei)项技(ji)术(shu)目前还(hai)处于学术(shu)研究阶段,但字节跳动在这(zhei)一方面的积极(ji)探索具有深远(yuan)的意(yi)义,通过不(bu)断地优化算法和模型结构(gou),X-Portrait 2已经展现出捕捉和再(zai)现人物表情微妙变化的能力。这(zhei)种(zhong)进步(bu)将(jiang)进一步(bu)拓展视频生(sheng)成的应用(yong)边界。