智东西(公众号:zhidxcom)
作者 | 程茜
编辑 | 心缘
智东西7月19日(ri)报道,今日(ri)下午,在(zai)(zai)字节跳(tiao)动(dong)(dong)AI技术(shu)菁英(ying)论坛上,字节跳(tiao)动(dong)(dong)豆包大模(mo)型视(shi)觉(jue)基础(chu)研(yan)(yan)究团队负(fu)责人(ren)(ren)冯佳时主持,多(duo)位视(shi)觉(jue)大模(mo)型研(yan)(yan)究的(de)关键人(ren)(ren)物集(ji)中演讲,详细解读字节跳(tiao)动(dong)(dong)在(zai)(zai)视(shi)频生(sheng)成和3D图像生(sheng)成模(mo)型的(de)一系列(lie)创新技术(shu)。
作为(wei)国内短视(shi)频(pin)王(wang)者(zhe),字节(jie)跳动(dong)(dong)是国内最(zui)受(shou)关(guan)注的AI视(shi)频(pin)生成(cheng)玩家之(zhi)一,从去年11月发(fa)布高动(dong)(dong)态视(shi)频(pin)生成(cheng)研究(jiu)成(cheng)果(guo)PixelDance、今(jin)年发(fa)布AI视(shi)频(pin)生成(cheng)模型(xing)MagicVideo-V2和开启AI创作工具即梦Dreamina视(shi)频(pin)生成(cheng)功能的测试,每次进展(zhan)都吸引了大量开发(fa)者(zhe)关(guan)注。
今(jin)天(tian),字(zi)节(jie)跳动研究科学(xue)家周大权(quan)回顾(gu)了字(zi)节(jie)跳动过视频生(sheng)成模型的(de)三年发展历程(cheng),以及字(zi)节(jie)在连(lian)续(xu)高动态长视频生(sheng)成技术上的(de)探索(suo)。
此外,字(zi)节研究科学家Bingyi Kang、张健(jian)锋、廖俊(jun)豪分(fen)(fen)别(bie)分(fen)(fen)享了单目深度估计基(ji)础模型(xing)Depth Aything、多视角条件扩散模型(xing)Magic-Boost、拖拽式图像(xiang)编辑工(gong)具(ju)InstaDrag的(de)最新成果。
一、视频生成一分为二,先文生图、再图生视频
字节跳动(dong)研究(jiu)科学家(jia)周大权的(de)演讲(jiang)主题是《连续高动(dong)态(tai)的(de)长视频生成(cheng)方案探索》,为了让生成(cheng)视频中主要角(jiao)色的(de)运(yun)动(dong)范围扩大,字节跳动(dong)将(jiang)这一过(guo)程(cheng)分(fen)为文(wen)生图、图生视频两(liang)步,使得模型(xing)生成(cheng)所(suo)需的(de)GPU资源和训练数据(ju)减少。
2022年(nian),字节跳动(dong)发布了视(shi)频(pin)生成模(mo)型(xing)的第一个版本,在这之后,研(yan)究人员(yuan)开始在移动(dong)算(suan)法、硬(ying)件效(xiao)率等(deng)维度进行模(mo)型(xing)优(you)(you)化。在运动(dong)算(suan)法优(you)(you)化方面(mian),研(yan)究人员(yuan)需(xu)要创建长(zhang)视(shi)频(pin)数(shu)据集。

目前,视(shi)频生成效果中运(yun)动范围都较小,如下图中人(ren)物(wu)的(de)运(yun)动轨迹实际上在整(zheng)个画面中只占很小的(de)位(wei)置。

想实现更加动态的视频效果,需要繁重的GPU资源(yuan)以及大量(liang)训练(lian)数据(ju)。

研究人员通过保持给定Token一致性,就可以确保生成不同时刻的剪辑是相同Token。
通用视频生成模型的最终目标是希望不投入太多GPU资源以及大量(liang)数据(ju),同时生成(cheng)过程(cheng)可(ke)控。把这些结合起来就是(shi)字节跳动研(yan)究人员的最终解决方案。
他们将文生视频分为两个过程,从文本到图像的处理过程只需要文本和图像数据,第二步是图像到视频。在文生图的过程中让不同图像持有相同ID,就可以降低训练难度。

周(zhou)大权称,有(you)时用(yong)户只需要输入一(yi)(yi)句话就(jiu)可(ke)以独立生成六个不同图像,将这些图像组合起来(lai)成为一(yi)(yi)段(duan)视频就(jiu)可(ke)以降低学习的(de)复杂(za)性以及模型实现的(de)难度。
在(zai)这之中(zhong),研究人员(yuan)修改了图(tu)像(xiang)相(xiang)似度计(ji)(ji)算(suan)过程中(zhong)的(de)注(zhu)意(yi)力(li),它们只(zhi)需要计(ji)(ji)算(suan)单个图(tu)像(xiang)内(nei)的(de)相(xiang)似度。研究人员(yuan)现在(zai)只(zhi)将上下文扩展到相(xiang)邻(lin)图(tu)像(xiang)中(zhong),利用这种新的(de)自注(zhu)意(yi)力(li)机(ji)制(zhi),就可(ke)以(yi)进行文生图(tu)像(xiang)以(yi)及图(tu)像(xiang)到视频的(de)组(zu)合。
同时,在基(ji)于独立(li)文(wen)本生(sheng)成图(tu)(tu)像(xiang)时,其(qi)还可(ke)以保(bao)留细节。图(tu)(tu)像(xiang)转换为视频时,该(gai)模型(xing)可(ke)以预(yu)测这(zhei)两个图(tu)(tu)像(xiang)之(zhi)间(jian)的中间(jian)帧,然后生(sheng)成中间(jian)视频,从而(er)生(sheng)成拥有无限镜(jing)头的视频。

二、DepthAything,成高质量2D转3D图像新思路
字节跳动(dong)研究科学家Bingyi Kang的演讲主题是(shi)《DepthAnything:单目(mu)深(shen)(shen)度估计的基础模型》,该(gai)模型可以更(geng)有效地从2D图像(xiang)中(zhong)识别出深(shen)(shen)度信息图,让普(pu)通手机(ji)拍摄的2D影像(xiang)也(ye)能快速转3D。
基于语言和视觉的(de)(de)基础模(mo)型(xing)可以(yi)提供很(hen)强的(de)(de)现实泛化能力,其背后的(de)(de)难题就是(shi)数(shu)据方案和模(mo)型(xing)方案。DepthAything提出了一(yi)种单目深度估计技术(shu),能更有(you)效地从2D图像中识(shi)别出深度信息图。

基于(yu)此,字节跳动的研(yan)究人员(yuan)(yuan)进行了数据缩放,Bingyi Kang谈道,首先(xian)是汇总所(suo)有(you)的数据,研(yan)究人员(yuan)(yuan)集(ji)成(cheng)了6个(ge)公共数据集(ji)和大约(yue)1500万(wan)张图片。随(sui)后基于(yu)这些数据训练模型(xing)。研(yan)究人员(yuan)(yuan)在标记图像上单(dan)独训练教师模型(xing),并通过这个(ge)教师网(wang)络对所(suo)有(you)图像进行适当处(chu)理(li)。
为(wei)了让数(shu)(shu)据(ju)标记更(geng)有(you)效,研究人员采取了两种措施,第(di)一种是将数(shu)(shu)据(ju)增强添加(jia)到(dao)未标记的(de)图像中,第(di)二种是使用非(fei)知识(shi)论文损失函数(shu)(shu)。

此(ci)外,真实数据有(you)一定(ding)噪声,会出现(xian)错误匹配的(de)(de)情况且成(cheng)本很高。因此(ci),他们首先在纯合(he)成(cheng)图(tu)像(xiang)上训练一个教师(shi)模型,然后(hou)使用(yong)这(zhei)个教师(shi)模型对所有(you)未标(biao)(biao)记的(de)(de)图(tu)像(xiang)进行工作室标(biao)(biao)记,然后(hou)只使用(yong)真实图(tu)像(xiang)的(de)(de)学生(sheng)标(biao)(biao)签来改变学生(sheng)模型。
DepthAnything技术的(de)应用有(you)望使(shi)得短视频平台上(shang)的(de)2D影像(xiang)转化为(wei)3D影像(xiang),或将应用于XR产业(ye)。

三、Magc-Boost:15分钟优化三维图像生成,复杂纹理、几何结构都能重现
字节跳动研究(jiu)科学(xue)家张健锋的演讲主题是《Magic-Boost:通(tong)过多(duo)视图(tu)条件扩散提升3D生(sheng)成(cheng)》,可以在15分(fen)钟内(nei)优化生(sheng)成(cheng)结(jie)果,从而保留复杂(za)的纹(wen)理或者几(ji)何结(jie)构。
三维(wei)技(ji)术在电(dian)影视(shi)觉(jue)特(te)效(xiao)、AR等(deng)(deng)场景中拥有广泛应(ying)用,人(ren)们可(ke)以自(zi)定义自(zi)己的角色、视(shi)觉(jue)效(xiao)果,城(cheng)(cheng)市生(sheng)成技(ji)术可(ke)以应(ying)用于城(cheng)(cheng)市规(gui)划、工业设计(ji)等(deng)(deng)。目前,研究人(ren)员(yuan)多利用二维(wei)扩(kuo)散模型生(sheng)成多视(shi)角图像(xiang),然后再将这(zhei)些图像(xiang)转(zhuan)化(hua)为精准3D模型。

张健锋谈道,首先可(ke)以给(ji)定(ding)文本或图像的(de)输(shu)入(ru)内容,通过(guo)多(duo)个(ge)不同模(mo)型(xing)生成(cheng),然后使用(yong)快速重建模(mo)型(xing)从多(duo)个(ge)图像中重建相应的(de)城市对(dui)象。这一过(guo)程(cheng)通常可(ke)以在(zai)10秒内完(wan)成(cheng)。
但这一生成的图像与原始输入之间仍会(hui)存在明显的性能(neng)差距,字节(jie)跳动的研究人(ren)员提出了多(duo)视(shi)角(jiao)条件(jian)扩散模(mo)型Magc-Boost,可(ke)以利用多(duo)个图像来优(you)(you)化成本生成结果,这一优(you)(you)化时间大(da)约为(wei)15分钟,其目的在于让图像中能(neng)尽可(ke)能(neng)多(duo)包含(han)对象的细节(jie)信息。

在(zai)与其他结(jie)果(guo)进行比较中,Magc-Boost可(ke)以实现快速(su)精化(hua),并(bing)保留过程中的内容(rong)特性,并(bing)能在(zai)短(duan)时间内快速(su)改进细节。
四、InstaDrag:拖拽(zhuai)一下(xia),1秒搞定(ding)照片编(bian)辑(ji)
字节跳动研究科学家廖俊豪的演讲主题是《InstaDrag:从视频数据中学习快且精准的拖拽式编辑》,InstaDrag可以使得用户进行图像编辑时速度最快提升百倍,在大约1秒(miao)内完成高质量拖拽(zhuai)式编辑图(tu)像,还能保留无(wu)需编辑区域的特(te)征。
目前,一(yi)些(xie)图(tu)像(xiang)编辑(ji)工具中,用户精确控制将(jiang)其移动到特定位置等基础功能还无法实现。廖俊豪称,因此,一(yi)个快速高效的基于(yu)拖拽的图(tu)像(xiang)编辑(ji)方案(an)十分必要。
在图像编辑工具中,字节跳动(dong)的四个目标(biao)(biao)就是(shi)快、未编辑区(qu)域不会产生变化、外观不变、 将(jiang)图片信息移动(dong)到目标(biao)(biao)位置。
相比于此前的方式,InstaDrag的图片编辑可以实现10-100倍的(de)速度提升,同(tong)时编(bian)辑更准确(que)。同(tong)时,自然视频中会包含大量的(de)运动线索(suo),这些视频数据就可以形成配对(dui)监督来训练(lian)模型。
为了保(bao)证未(wei)编辑区域(yu)不发生变化(hua),研究(jiu)人员提供了一(yi)个(ge)遮罩(zhao)(zhao),可以确保(bao)遮罩(zhao)(zhao)外(wai)的每个(ge)像素保(bao)持不变只拖动遮罩(zhao)(zhao)内区域(yu)。

在Demo演示(shi)中,用户选择遮罩区域并进行相应拖动后,会出(chu)现(xian)4个结果以便从中选择。
结语:视频、3D生成模型爆发机遇已来
世(shi)界模型(xing),被认为是通往(wang)AGI的关(guan)键路(lu)径之(zhi)一。想(xiang)要真正理解物理世(shi)界,也就意(yi)味着需要更多视觉(jue)信号(hao),如(ru)二(er)维、三维图像、视频等。
近一年来,AI视(shi)频(pin)、3D生(sheng)成(cheng)领域的(de)(de)(de)热度持续(xu)攀(pan)升,多家AI公司推出了新的(de)(de)(de)视(shi)频(pin)生(sheng)成(cheng)模(mo)型,引发(fa)了行业内(nei)的(de)(de)(de)激烈竞争,从图像生(sheng)成(cheng)、图像编辑到更为复杂的(de)(de)(de)长视(shi)频(pin)、三维信息生(sheng)成(cheng)等(deng)模(mo)型问世,彻底引爆了这(zhei)条(tiao)赛道(dao)。
在(zai)短视频、AI领域(yu)等积累颇深的字节跳动(dong),或许会在(zai)这(zhei)条路上带来(lai)更多的惊(jing)喜。