参考生开创者Vidu正面硬刚Sora 2，月底推Q2新版本

智东西（公众号：zhidxcom）
作者 | 程茜
编辑 | 漠影

刚刚过(guo)去的国(guo)庆假期，将视频生成领域的技术竞赛推向全新高度。

OpenAI率先抛出(chu)重磅炸弹，旗舰视(shi)频(pin)生(sheng)成(cheng)模型Sora 2，直(zhi)言其正(zheng)“直(zhi)奔(ben)视(shi)频(pin)领域的(de)GPT-3.5时刻”，并随之推出(chu)Sora应用程(cheng)序。凭(ping)“Cameo（引用角色(se)功能）”首(shou)周(zhou)下载量超(chao)ChatGPT；随后，马斯(si)克xAI亮出(chu)Imagine v0.9，以(yi)20秒内(nei)快速(su)生(sheng)成(cheng)、全用户免费开放的(de)优势予以(yi)回应；本月底(di)，国内(nei)AI视(shi)频(pin)创业公(gong)司(si)生(sheng)数科技的(de)Vidu Q2参(can)考生(sheng)功能也即(ji)将重磅亮相……

在这一系列密集的行业动向中，其中尤为突出的是Sora应用的Cameo和Vidu的参考生功能，我们可以窥探到视频生成赛道的新共识，“引用角色形象(xiang)”正(zheng)成为技术(shu)探(tan)索与应用落(luo)地的(de)关键方向。

相比于OpenAI，生数科技在参考生视频领域的布局更早。作为全(quan)球(qiu)“参(can)考生视(shi)频”概念的首(shou)个提出者和开创(chuang)者，早在2024年9月Vidu就(jiu)已提出了参(can)考生视(shi)频功能。而随着Sora应(ying)用程(cheng)序的落地，中美在AI视(shi)频领域的技术(shu)与(yu)产品较量，也正式进(jin)入正面PK的关键阶段。

本月底，Vidu Q2参考(kao)生视频即将登场，不(bu)仅(jin)对(dui)于(yu)To C小白用户友好，使用门槛大幅降低，而且作(zuo)为生产力工(gong)具，其对(dui)于(yu)专(zhuan)业、半专(zhuan)业创(chuang)作(zuo)者也非(fei)常能(neng)打，同时对(dui)于(yu)一致性、精准性、性价比要求(qiu)较高(gao)的广告(gao)电商、影视动漫(man)等(deng)To B领域(yu)的要求(qiu)也能(neng)满(man)足(zu)。

下面是创作者陈畅(chang)率(lv)先借(jie)助Vidu Q2参(can)考(kao)生(sheng)功(gong)能生(sheng)成的(de)高燃大(da)片，已(yi)经让(rang)我们(men)提前感受了Vidu Q2参(can)考(kao)生(sheng)的(de)技术实力。

一、直击视频生成核心痛点，“角色引用”成主流解法，Vidu早有布局

不同(tong)于文(wen)字、图(tu)像生(sheng)成技(ji)术已实(shi)现(xian)高稳定性(xing)、高可控性(xing)的生(sheng)成效(xiao)果(guo)，当前视(shi)频生(sheng)成技(ji)术虽正(zheng)在(zai)快(kuai)速迭代，却仍(reng)受多个核心痛点制约，尚未迎来大规(gui)模(mo)商业化落地的爆发时(shi)刻。

首先，文字之间的连接可通过语法、上下文，图像只需明确单一场景的核心信息，而视频的核心价值在于通过连续画面传递完整叙事，往往视频时长增加，就(jiu)会出(chu)现(xian)情节割裂、角色行为矛盾、空(kong)间错位等问(wen)题。

其次，可控性缺失。若视频生成(cheng)包(bao)含元素过(guo)(guo)多(duo)，会(hui)受限(xian)于模型的理(li)解(jie)能力(li)和记(ji)忆能力(li)等(deng)，再(zai)加上普通用(yong)户难以通过(guo)(guo)提示(shi)词传达准确的专(zhuan)业术语，会(hui)进一步(bu)导致(zhi)生成(cheng)内容出现偏差。

从(cong)当下(xia)主流视频生成(cheng)模型(xing)企业的布局来(lai)看，引用(yong)角色形象(xiang)这一核心思路(lu)，成(cheng)为解决上述痛点的有(you)效路(lu)径，也就是(shi)Sora App中的Cameo以及Vidu的参考生功能(neng)。

其(qi)共同(tong)(tong)点是支持上传(chuan)参(can)考图生(sheng)(sheng)成视频(pin)，能在一(yi)定程度上使得最后视频(pin)生(sheng)(sheng)成都围绕(rao)这一(yi)元素展开，避免中间出现较大的情节偏差(cha)。再加上其(qi)有固定的角(jiao)色特征作(zuo)为参(can)照，用(yong)户可(ke)以(yi)以(yi)画(hua)面中内(nei)容为核心结合提示词(ci)生(sheng)(sheng)成同(tong)(tong)一(yi)角(jiao)色不同(tong)(tong)的视频(pin)画(hua)面。

但不同之处(chu)在于，Vidu的(de)参考生功能范畴覆盖更为(wei)广泛。

Sora App中的Cameo功能，允许用户在应用中进行一次简短的音视频录制，即可以将自己或者授权的其他人直接带入任何Sora生成的场景中。一定程度上可以认为，Cameo的功能是使生成视频中的主体角色与上传图片的主体保持一致，也就是“角色参考”。

而Vidu的“参考生”功能，涵(han)盖了(le)角色、环境(jing)、道具等诸(zhu)多要素(su)来生(sheng)成视(shi)频(pin)，参考类型更(geng)多，可以为创作者提供(gong)更(geng)高(gao)的自由度和(he)控制力(li)。

AI原生(sheng)(sheng)的(de)参考生(sheng)(sheng)功能(neng)已(yi)经(jing)成为这场视频生(sheng)(sheng)成竞赛中抢占先机的(de)关键，就在(zai)本(ben)月底，Vidu即将(jiang)发布的(de)Q2参考生(sheng)(sheng)版本(ben)，将(jiang)进一步强化这一优势(shi)。

二、从一致性到精细控制：Vidu Q2参考生与Sora 2逐维度拆解

相同参考图片下，Sora 2与Vidu Q2参考生的生成效果各有优劣。
首先明确下OpenAI Sora App中的Cameo与Vidu Q2参考生的具体功能。

从OpenAI的官方博(bo)客可(ke)以(yi)看出(chu)，Cameo生成(cheng)的角色由用(yong)户(hu)的短(duan)视(shi)频(pin)和(he)音(yin)频(pin)捕获构建(jian)而成(cheng)，可(ke)以(yi)被重复使用(yong)。且录制视(shi)频(pin)和(he)音(yin)频(pin)时，用(yong)户(hu)需(xu)要寻找效(xiao)果较好的光线、干净的背景(jing)、摘下帽子、保持周围环(huan)境(jing)安(an)静等，才(cai)能确保最后生成(cheng)的主体角色质(zhi)量更高。

Vidu Q2的(de)参考生功(gong)能(neng)则支持(chi)上传最多7张(zhang)照片，可以(yi)是人物(wu)、物(wu)体(ti)、场景、特(te)效的(de)不同(tong)组合，也可以(yi)是多个人物(wu)，并且能(neng)在保持(chi)参考图特(te)征的(de)同(tong)时，更贴近用户原(yuan)始输入。

下(xia)面就是(shi)同样的(de)参考图(tu)片、提(ti)示词下(xia)，Sora 2与Vidu Q2参考生生成(cheng)的(de)视频实(shi)际(ji)效果对比(bi)，提(ti)示词为(wei)介绍皇冠：

参考图（由(you)AI生成(cheng)）：

参考生开创者Vidu正面硬刚Sora 2，月底推Q2新版本

Sora 2生成的视频效果：

Vidu Q2生成的视频(pin)效果：

参考生开创者Vidu正面硬刚Sora 2，月底推Q2新版本

可以看到(dao)，两个视(shi)(shi)频中(zhong)都切(qie)换了远景、近(jin)景。Sora 2的(de)(de)优势(shi)在于可以音视(shi)(shi)频直出(chu)(chu)，画面搭配实时解说，并自动补充大量不同(tong)分镜，几乎做到(dao)一键成(cheng)片，但其中(zhong)不足的(de)(de)地方在于，Sora 2的(de)(de)视(shi)(shi)频中(zhong)皇(huang)冠样式略微(wei)发生改变，还出(chu)(chu)现了皇(huang)冠凭空漂浮在空中(zhong)的(de)(de)反(fan)常理画面。

相比之(zhi)下，Vidu Q2参考生(sheng)生(sheng)成的(de)(de)(de)视频(pin)中，主(zhu)体人(ren)(ren)物(wu)(wu)始终(zhong)手握(wo)皇(huang)冠，且人(ren)(ren)物(wu)(wu)的(de)(de)(de)形象、嘴边的(de)(de)(de)麦克、皇(huang)冠的(de)(de)(de)样式始终(zhong)保(bao)持一致，同时(shi)人(ren)(ren)物(wu)(wu)的(de)(de)(de)眼(yan)神(shen)也在跟(gen)随皇(huang)冠的(de)(de)(de)位(wei)置变(bian)化而移动(dong)，使得人(ren)(ren)物(wu)(wu)与物(wu)(wu)品(pin)更具有(you)互动(dong)感，但(dan)不足之(zhi)处在于，虽然人(ren)(ren)物(wu)(wu)的(de)(de)(de)嘴形也在变(bian)化，却(que)没(mei)有(you)相应(ying)的(de)(de)(de)音频(pin)生(sheng)成。

第二个的(de)提示词为：女孩闭上眼(yan)睛，身后的(de)云(yun)朵飞舞，发(fa)出金光。

参考图（由(you)AI生成(cheng)）：

参考生开创者Vidu正面硬刚Sora 2，月底推Q2新版本

Sora 2生(sheng)成的视频效果：

参考生开创者Vidu正面硬刚Sora 2，月底推Q2新版本

Vidu Q2生成的视频效果：

参考生开创者Vidu正面硬刚Sora 2，月底推Q2新版本

这一案例中，Sora 2生成(cheng)的人脸与(yu)参考(kao)(kao)图(tu)相差较大。Vidu Q2则更好(hao)地保持了(le)与(yu)参考(kao)(kao)图(tu)人物的完全一致。

总结来(lai)看，Vidu参(can)考(kao)生的核心(xin)优(you)势(shi)为突破(po)单一角色引用局限，实现了覆盖角色、道具(ju)、场景、特效等创作全要素参(can)考(kao)，同时在(zai)主体一致性上保持更(geng)好。

基于此，创作(zuo)(zuo)(zuo)者无需在多工具(ju)间切换寻找资源，仅通(tong)过Vidu参考生就能直接引用(yong)所需的(de)各(ge)类创作(zuo)(zuo)(zuo)要(yao)素，并基于这些要(yao)素快(kuai)速(su)生成视频，最终简化创作(zuo)(zuo)(zuo)流程并赋予(yu)创作(zuo)(zuo)(zuo)者更高(gao)的(de)创作(zuo)(zuo)(zuo)自由度与细节(jie)控制(zhi)力。

三、Vidu Q2参考生三大亮点曝光，月底正式亮相

据了解，Vidu Q2模型的升级让AI视频从视频生成直接迈向演技生成新阶段，而这次参考生功能的Q2版本更新也在原有功能上实现了质的突破，生成的视频一致性依旧保持全球领先(xian)、生成速(su)度更快(kuai)、价格更优惠(hui)，同时作(zuo)为国产AI视频，对于国内用户来说，直(zhi)接上手可用。

智东西也(ye)率先拿到了(le)Vidu Q2参(can)考生(sheng)的内测(ce)资格，提(ti)前体验了(le)一波参(can)考生(sheng)功能的升级。

话不多说(shuo)，先上实(shi)例。

第一个案例是广(guang)告(gao)电商(shang)类(lei)的美(mei)妆产(chan)品(pin)多步骤演(yan)示。

提示(shi)(shi)词：图(tu)1坐在图(tu)3前(qian)，先拿起图(tu)2的粉底(di)液(ye)，用(yong)美妆(zhuang)蛋以“点涂+轻拍”动作均匀上(shang)脸(lian)（特(te)写手部发力(li)细节），接着对着镜子微笑展示(shi)(shi)妆(zhuang)效(xiao)（捕(bu)捉(zhuo)嘴角(jiao)上(shang)扬+眼神亮泽的表(biao)情）。镜头从“手部操作近景→面部上(shang)妆(zhuang)中(zhong)景→微笑特(te)写”切换，全程保持博主妆(zhuang)容、梳妆(zhuang)台物品位置不(bu)变。

参考图（由AI生成）：

参考生开创者Vidu正面硬刚Sora 2，月底推Q2新版本

Vidu Q2生成(cheng)的视频(pin)：

参考生开创者Vidu正面硬刚Sora 2，月底推Q2新版本

最后生成的视频中美妆(zhuang)博主眼睛上的亮(liang)片也(ye)都进行了复现(xian)，且使(shi)用(yong)的美妆(zhuang)蛋、卧室(shi)梳妆(zhuang)台与(yu)参考图内容(rong)均一致，在(zai)人物(wu)运动、镜(jing)头(tou)切(qie)换时也(ye)没有(you)变形。

第二个案例是知识科普类，科普某手工制品的制作(zuo)教(jiao)程等。

提示词：图(tu)1在演示皮(pi)具(ju)缝制：先将图(tu)2的皮(pi)革对(dui)齐，再(zai)用(yong)针线(xian)回针缝（特写(xie)针脚密度(du)），全程保持皮(pi)革纹理、工(gong)具(ju)摆放位置不(bu)变。

参考图（由(you)AI生(sheng)成）：

参考生开创者Vidu正面硬刚Sora 2，月底推Q2新版本

Vidu Q2生成的视频：

参考生开创者Vidu正面硬刚Sora 2，月底推Q2新版本

这一视(shi)频中全程的(de)皮革纹理(li)、工具(ju)摆放位置(zhi)并没有(you)发(fa)生变化，并且精准(zhun)的(de)拉近镜头切换特(te)写，人(ren)物(wu)还有(you)用针线(xian)的(de)相应动作(zuo)。

第三(san)个案例(li)是(shi)宠物拟人化剧(ju)情(qing)：

图(tu)1坐在(zai)图(tu)3的(de)迷你书桌前，前爪(zhua)搭在(zai)图(tu)2的(de)笔(bi)记(ji)本上假(jia)装写字（爪(zhua)子(zi)轻(qing)划纸面的(de)动(dong)态），偶尔抬头(tou)歪头(tou)（呆萌表情(qing)）。镜(jing)(jing)头(tou)先用(yong)低角(jiao)度仰拍模拟宠物视角(jiao)，再(zai)用(yong)缓慢推(tui)近聚(ju)焦写字动(dong)作，最后用(yong)俯(fu)视运镜(jing)(jing)展示书桌全貌；全程保持柯基帽子(zi)不掉、道具位置合理。

参考(kao)图（由AI生成）：

参考生开创者Vidu正面硬刚Sora 2，月底推Q2新版本

Vidu Q2生成的视频：

参考生开创者Vidu正面硬刚Sora 2，月底推Q2新版本

这一视(shi)频中客厅背景(jing)的绿植、沙发造型，小桌子上的笔记本、笔、橡皮(pi)以及柯基头(tou)上佩戴的蓝色(se)帽子位置都(dou)与参考图(tu)一致，且镜头(tou)也符(fu)合提示词要求的的先用低角度仰(yang)拍再全(quan)景(jing)展示。

三个体(ti)验(yan)案例中的(de)共同点(dian)就(jiu)是(shi)，利(li)用Vidu Q2参考生(sheng)生(sheng)成的(de)视(shi)频(pin)均保持(chi)了智东西(xi)上(shang)传图片的(de)一致性，同时能(neng)满足各(ge)种(zhong)镜头角度转换、人物动(dong)作变化(hua)的(de)需(xu)求。Q2参考生(sheng)在生(sheng)成速(su)度上(shang)也更快，只需(xu)十(shi)几秒(miao)即能(neng)快速(su)生(sheng)成一段5秒(miao)视(shi)频(pin)片段。

这一波Vidu Q2的(de)升级(ji)，将再次(ci)使得参考(kao)生(sheng)的(de)实用性更进一步(bu)，大(da)幅(fu)降低(di)视频制作(zuo)的(de)技术(shu)门槛。

Vidu Q2参考生视(shi)频已进入发布倒计时，本月(yue)底即将揭晓(xiao)答案，其将用实力证明，中国视(shi)频大模型更(geng)能打，不只停留在技(ji)术层面，更(geng)在于落地价值。

国产成人亚洲精品狼色在线,亚洲成色www久久网站,强制高潮(h)调教,大伊香蕉在线精品视频75,日本无码少妇成人久久丫

一、直击视频生成核心痛点，“角色引用”成主流解法，Vidu早有布局

二、从一致性到精细控制：Vidu Q2参考生与Sora 2逐维度拆解

三、Vidu Q2参考生三大亮点曝光，月底正式亮相

相关推荐