智东西(公众号:zhidxcom)
作者 | 程茜
编辑 | 漠影

刚刚过(guo)去的国(guo)庆假期,将视频生成领域的技术竞赛推向全新高度。

OpenAI率先抛出(chu)重磅炸弹,旗舰视(shi)频(pin)生(sheng)成(cheng)模型Sora 2,直(zhi)言其正(zheng)“直(zhi)奔(ben)视(shi)频(pin)领域的(de)GPT-3.5时刻”,并随之推出(chu)Sora应用程(cheng)序。凭(ping)“Cameo(引用角色(se)功能)”首(shou)周(zhou)下载量超(chao)ChatGPT;随后,马斯(si)克xAI亮出(chu)Imagine v0.9,以(yi)20秒内(nei)快速(su)生(sheng)成(cheng)、全用户免费开放的(de)优势予以(yi)回应;本月底(di),国内(nei)AI视(shi)频(pin)创业公(gong)司(si)生(sheng)数科技的(de)Vidu Q2参(can)考生(sheng)功能也即(ji)将重磅亮相……

在这一系列密集的行业动向中,其中尤为突出的是Sora应用的Cameo和Vidu的参考生功能,我们可以窥探到视频生成赛道的新共识,“引用角色形象(xiang)”正(zheng)成为技术(shu)探(tan)索与应用落(luo)地的(de)关键方向

相比于OpenAI,生数科技在参考生视频领域的布局更早。作为全(quan)球(qiu)“参(can)考生视(shi)频”概念的首(shou)个提出者和开创(chuang)者,早在2024年9月Vidu就(jiu)已提出了参(can)考生视(shi)频功能。而随着Sora应(ying)用程(cheng)序的落地,中美在AI视(shi)频领域的技术(shu)与(yu)产品较量,也正式进(jin)入正面PK的关键阶段。

本月底,Vidu Q2参考(kao)生视频即将登场,不(bu)仅(jin)对(dui)于(yu)To C小白用户友好,使用门槛大幅降低,而且作(zuo)为生产力工(gong)具,其对(dui)于(yu)专(zhuan)业、半专(zhuan)业创(chuang)作(zuo)者也非(fei)常能(neng)打,同时对(dui)于(yu)一致性、精准性、性价比要求(qiu)较高(gao)的广告(gao)电商、影视动漫(man)等(deng)To B领域(yu)的要求(qiu)也能(neng)满(man)足(zu)。

下面是创作者陈畅(chang)率(lv)先借(jie)助Vidu Q2参(can)考(kao)生(sheng)功(gong)能生(sheng)成的(de)高燃大(da)片,已(yi)经让(rang)我们(men)提前感受了Vidu Q2参(can)考(kao)生(sheng)的(de)技术实力。

一、直击视频生成核心痛点,“角色引用”成主流解法,Vidu早有布局

不同(tong)于文(wen)字、图(tu)像生(sheng)成技(ji)术已实(shi)现(xian)高稳定性(xing)、高可控性(xing)的生(sheng)成效(xiao)果(guo),当前视(shi)频生(sheng)成技(ji)术虽正(zheng)在(zai)快(kuai)速迭代,却仍(reng)受多个核心痛点制约,尚未迎来大规(gui)模(mo)商业化落地的爆发时(shi)刻。

首先,文字之间的连接可通过语法、上下文,图像只需明确单一场景的核心信息,而视频的核心价值在于通过连续画面传递完整叙事,往往视频时长增加,就(jiu)会出(chu)现(xian)情节割裂、角色行为矛盾、空(kong)间错位等问(wen)题

其次,可控性缺失。若视频生成(cheng)包(bao)含元素过(guo)(guo)多(duo),会(hui)受限(xian)于模型的理(li)解(jie)能力(li)和记(ji)忆能力(li)等(deng),再(zai)加上普通用(yong)户难以通过(guo)(guo)提示(shi)词传达准确的专(zhuan)业术语,会(hui)进一步(bu)导致(zhi)生成(cheng)内容出现偏差。

从(cong)当下(xia)主流视频生成(cheng)模型(xing)企业的布局来(lai)看,引用(yong)角色形象(xiang)这一核心思路(lu),成(cheng)为解决上述痛点的有(you)效路(lu)径,也就是(shi)Sora App中的Cameo以及Vidu的参考生功能(neng)。

其(qi)共同(tong)(tong)点是支持上传(chuan)参(can)考图生(sheng)(sheng)成视频(pin),能在一(yi)定程度上使得最后视频(pin)生(sheng)(sheng)成都围绕(rao)这一(yi)元素展开,避免中间出现较大的情节偏差(cha)。再加上其(qi)有固定的角(jiao)色特征作(zuo)为参(can)照,用(yong)户可(ke)以(yi)以(yi)画(hua)面中内(nei)容为核心结合提示词(ci)生(sheng)(sheng)成同(tong)(tong)一(yi)角(jiao)色不同(tong)(tong)的视频(pin)画(hua)面。

但不同之处(chu)在于,Vidu的(de)参考生功能范畴覆盖更为(wei)广泛。

Sora App中的Cameo功能,允许用户在应用中进行一次简短的音视频录制,即可以将自己或者授权的其他人直接带入任何Sora生成的场景中。一定程度上可以认为,Cameo的功能是使生成视频中的主体角色与上传图片的主体保持一致,也就是“角色参考”

而Vidu的“参考生”功能,涵(han)盖了(le)角色、环境(jing)、道具等诸(zhu)多要素(su)来生(sheng)成视(shi)频(pin),参考类型更(geng)多,可以为创作者提供(gong)更(geng)高(gao)的自由度和(he)控制力(li)。

AI原生(sheng)(sheng)的(de)参考生(sheng)(sheng)功能(neng)已(yi)经(jing)成为这场视频生(sheng)(sheng)成竞赛中抢占先机的(de)关键,就在(zai)本(ben)月底,Vidu即将(jiang)发布的(de)Q2参考生(sheng)(sheng)版本(ben),将(jiang)进一步强化这一优势(shi)。

二、从一致性到精细控制:Vidu Q2参考生与Sora 2逐维度拆解

相同参考图片下,Sora 2与Vidu Q2参考生的生成效果各有优劣。
首先明确下OpenAI Sora App中的Cameo与Vidu Q2参考生的具体功能。

从OpenAI的官方博(bo)客可(ke)以(yi)看出(chu),Cameo生成(cheng)的角色由用(yong)户(hu)的短(duan)视(shi)频(pin)和(he)音(yin)频(pin)捕获构建(jian)而成(cheng),可(ke)以(yi)被重复使用(yong)。且录制视(shi)频(pin)和(he)音(yin)频(pin)时,用(yong)户(hu)需(xu)要寻找效(xiao)果较好的光线、干净的背景(jing)、摘下帽子、保持周围环(huan)境(jing)安(an)静等,才(cai)能确保最后生成(cheng)的主体角色质(zhi)量更高。

Vidu Q2的(de)参考生功(gong)能(neng)则支持(chi)上传最多7张(zhang)照片,可以(yi)是人物(wu)、物(wu)体(ti)、场景、特(te)效的(de)不同(tong)组合,也可以(yi)是多个人物(wu),并且能(neng)在保持(chi)参考图特(te)征的(de)同(tong)时,更贴近用户原(yuan)始输入。

下(xia)面就是(shi)同样的(de)参考图(tu)片、提(ti)示词下(xia),Sora 2与Vidu Q2参考生生成(cheng)的(de)视频实(shi)际(ji)效果对比(bi),提(ti)示词为(wei)介绍皇冠:

参考图(由(you)AI生成(cheng)):

参考生开创者Vidu正面硬刚Sora 2,月底推Q2新版本

Sora 2生成的视频效果:

Vidu Q2生成的视频(pin)效果:

参考生开创者Vidu正面硬刚Sora 2,月底推Q2新版本

可以看到(dao),两个视(shi)(shi)频中(zhong)都切(qie)换了远景、近(jin)景。Sora 2的(de)(de)优势(shi)在于可以音视(shi)(shi)频直出(chu)(chu),画面搭配实时解说,并自动补充大量不同(tong)分镜,几乎做到(dao)一键成(cheng)片,但其中(zhong)不足的(de)(de)地方在于,Sora 2的(de)(de)视(shi)(shi)频中(zhong)皇(huang)冠样式略微(wei)发生改变,还出(chu)(chu)现了皇(huang)冠凭空漂浮在空中(zhong)的(de)(de)反(fan)常理画面。

相比之(zhi)下,Vidu Q2参考生(sheng)生(sheng)成的(de)(de)(de)视频(pin)中,主(zhu)体人(ren)(ren)物(wu)(wu)始终(zhong)手握(wo)皇(huang)冠,且人(ren)(ren)物(wu)(wu)的(de)(de)(de)形象、嘴边的(de)(de)(de)麦克、皇(huang)冠的(de)(de)(de)样式始终(zhong)保(bao)持一致,同时(shi)人(ren)(ren)物(wu)(wu)的(de)(de)(de)眼(yan)神(shen)也在跟(gen)随皇(huang)冠的(de)(de)(de)位(wei)置变(bian)化而移动(dong),使得人(ren)(ren)物(wu)(wu)与物(wu)(wu)品(pin)更具有(you)互动(dong)感,但(dan)不足之(zhi)处在于,虽然人(ren)(ren)物(wu)(wu)的(de)(de)(de)嘴形也在变(bian)化,却(que)没(mei)有(you)相应(ying)的(de)(de)(de)音频(pin)生(sheng)成。

第二个的(de)提示词为:女孩闭上眼(yan)睛,身后的(de)云(yun)朵飞舞,发(fa)出金光。

参考图(由(you)AI生成(cheng)):

参考生开创者Vidu正面硬刚Sora 2,月底推Q2新版本

Sora 2生(sheng)成的视频效果:

参考生开创者Vidu正面硬刚Sora 2,月底推Q2新版本

Vidu Q2生成的视频效果:

参考生开创者Vidu正面硬刚Sora 2,月底推Q2新版本

这一案例中,Sora 2生成(cheng)的人脸与(yu)参考(kao)(kao)图(tu)相差较大。Vidu Q2则更好(hao)地保持了(le)与(yu)参考(kao)(kao)图(tu)人物的完全一致。

总结来(lai)看,Vidu参(can)考(kao)生的核心(xin)优(you)势(shi)为突破(po)单一角色引用局限,实现了覆盖角色、道具(ju)、场景、特效等创作全要素参(can)考(kao),同时在(zai)主体一致性上保持更(geng)好。

基于此,创作(zuo)(zuo)(zuo)者无需在多工具(ju)间切换寻找资源,仅通(tong)过Vidu参考生就能直接引用(yong)所需的(de)各(ge)类创作(zuo)(zuo)(zuo)要(yao)素,并基于这些要(yao)素快(kuai)速(su)生成视频,最终简化创作(zuo)(zuo)(zuo)流程并赋予(yu)创作(zuo)(zuo)(zuo)者更高(gao)的(de)创作(zuo)(zuo)(zuo)自由度与细节(jie)控制(zhi)力。

三、Vidu Q2参考生三大亮点曝光,月底正式亮相

据了解,Vidu Q2模型的升级让AI视频从视频生成直接迈向演技生成新阶段,而这次参考生功能的Q2版本更新也在原有功能上实现了质的突破,生成的视频一致性依旧保持全球领先(xian)、生成速(su)度更快(kuai)、价格更优惠(hui),同时作(zuo)为国产AI视频,对于国内用户来说,直(zhi)接上手可用。

智东西也(ye)率先拿到了(le)Vidu Q2参(can)考生(sheng)的内测(ce)资格,提(ti)前体验了(le)一波参(can)考生(sheng)功能的升级。

话不多说(shuo),先上实(shi)例。

第一个案例是广(guang)告(gao)电商(shang)类(lei)的美(mei)妆产(chan)品(pin)多步骤演(yan)示。

提示(shi)(shi)词:图(tu)1坐在图(tu)3前(qian),先拿起图(tu)2的粉底(di)液(ye),用(yong)美妆(zhuang)蛋以“点涂+轻拍”动作均匀上(shang)脸(lian)(特(te)写手部发力(li)细节),接着对着镜子微笑展示(shi)(shi)妆(zhuang)效(xiao)(捕(bu)捉(zhuo)嘴角(jiao)上(shang)扬+眼神亮泽的表(biao)情)。镜头从“手部操作近景→面部上(shang)妆(zhuang)中(zhong)景→微笑特(te)写”切换,全程保持博主妆(zhuang)容、梳妆(zhuang)台物品位置不(bu)变。

参考图(由AI生成):

参考生开创者Vidu正面硬刚Sora 2,月底推Q2新版本

Vidu Q2生成(cheng)的视频(pin):

参考生开创者Vidu正面硬刚Sora 2,月底推Q2新版本

最后生成的视频中美妆(zhuang)博主眼睛上的亮(liang)片也(ye)都进行了复现(xian),且使(shi)用(yong)的美妆(zhuang)蛋、卧室(shi)梳妆(zhuang)台与(yu)参考图内容(rong)均一致,在(zai)人物(wu)运动、镜(jing)头(tou)切(qie)换时也(ye)没有(you)变形。

第二个案例是知识科普类,科普某手工制品的制作(zuo)教(jiao)程等。

提示词:图(tu)1在演示皮(pi)具(ju)缝制:先将图(tu)2的皮(pi)革对(dui)齐,再(zai)用(yong)针线(xian)回针缝(特写(xie)针脚密度(du)),全程保持皮(pi)革纹理、工(gong)具(ju)摆放位置不(bu)变。

参考图(由(you)AI生(sheng)成):

参考生开创者Vidu正面硬刚Sora 2,月底推Q2新版本

Vidu Q2生成的视频:

参考生开创者Vidu正面硬刚Sora 2,月底推Q2新版本

这一视(shi)频中全程的(de)皮革纹理(li)、工具(ju)摆放位置(zhi)并没有(you)发(fa)生变化,并且精准(zhun)的(de)拉近镜头切换特(te)写,人(ren)物(wu)还有(you)用针线(xian)的(de)相应动作(zuo)。

第三(san)个案例(li)是(shi)宠物拟人化剧(ju)情(qing):

图(tu)1坐在(zai)图(tu)3的(de)迷你书桌前,前爪(zhua)搭在(zai)图(tu)2的(de)笔(bi)记(ji)本上假(jia)装写字(爪(zhua)子(zi)轻(qing)划纸面的(de)动(dong)态),偶尔抬头(tou)歪头(tou)(呆萌表情(qing))。镜(jing)(jing)头(tou)先用(yong)低角(jiao)度仰拍模拟宠物视角(jiao),再(zai)用(yong)缓慢推(tui)近聚(ju)焦写字动(dong)作,最后用(yong)俯(fu)视运镜(jing)(jing)展示书桌全貌;全程保持柯基帽子(zi)不掉、道具位置合理。

参考(kao)图(由AI生成):

参考生开创者Vidu正面硬刚Sora 2,月底推Q2新版本

Vidu Q2生成的视频:

参考生开创者Vidu正面硬刚Sora 2,月底推Q2新版本

这一视(shi)频中客厅背景(jing)的绿植、沙发造型,小桌子上的笔记本、笔、橡皮(pi)以及柯基头(tou)上佩戴的蓝色(se)帽子位置都(dou)与参考图(tu)一致,且镜头(tou)也符(fu)合提示词要求的的先用低角度仰(yang)拍再全(quan)景(jing)展示。

三个体(ti)验(yan)案例中的(de)共同点(dian)就(jiu)是(shi),利(li)用Vidu Q2参考生(sheng)生(sheng)成的(de)视(shi)频(pin)均保持(chi)了智东西(xi)上(shang)传图片的(de)一致性,同时能(neng)满足各(ge)种(zhong)镜头角度转换、人物动(dong)作变化(hua)的(de)需(xu)求。Q2参考生(sheng)在生(sheng)成速(su)度上(shang)也更快,只需(xu)十(shi)几秒(miao)即能(neng)快速(su)生(sheng)成一段5秒(miao)视(shi)频(pin)片段。

这一波Vidu Q2的(de)升级(ji),将再次(ci)使得参考(kao)生(sheng)的(de)实用性更进一步(bu),大(da)幅(fu)降低(di)视频制作(zuo)的(de)技术(shu)门槛。

Vidu Q2参考生视(shi)频已进入发布倒计时,本月(yue)底即将揭晓(xiao)答案,其将用实力证明,中国视(shi)频大模型更(geng)能打,不只停留在技(ji)术层面,更(geng)在于落地价值。