智东西(公众号:zhidxcom)
作者 | ZeR0
编辑 | 漠影
智(zhi)东西4月22日报道,AI视(shi)(shi)频生成创企生数科技(ji)最新上线(xian)的全新Vidu Q1视(shi)(shi)频大(da)模型,同时登上多个权威文生视(shi)(shi)频、图生视(shi)(shi)频基准(zhun)测试榜单的第(di)一。
该模型可支持生成1080p分辨率5秒视频,生成效果清晰稳定,已在网页端(Vidu.cn)、手机端上线。
相较2.0版(ban)本,Vidu Q1进一(yi)(yi)步提(ti)升了语(yu)义(yi)理解、画质、动作(zuo)、美学、逼真(zhen)和(he)丝滑程度(du),首尾(wei)帧(zhen)衔接更加(jia)流(liu)畅,上传两张图就能生成一(yi)(yi)镜(jing)到底的自然(ran)运镜(jing)。
性价比也相当高。一个1080p 5秒视频价格最低1.34元,价格低至0.3元/秒,仅为同类产品的1/10。
Vidu Q1的(de)(de)动(dong)态表(biao)现出(chu)色(se),能驾驭特写、特效(xiao)、微缩(suo)镜头,生成即可商用(yong),适(shi)用(yong)于广告(gao)营(ying)销、短剧、电商、互(hu)动(dong)娱乐等场(chang)景。比如用(yong)它(ta)生成耳(er)机、香水的(de)(de)广告(gao):
有(you)海(hai)外网友(you)反馈(kui)说,Vidu Q1对(dui)提示(shi)词(ci)的遵循表现提升很多,能(neng)执行一些复(fu)杂(za)的提示(shi)词(ci),比(bi)Veo2的表现更(geng)好。
这位网(wang)友晒出(chu)了用Vidu Q1做的(de)毛毡风动画。视频中,小狗从虚化到(dao)清晰(xi)的(de)聚焦转换处理得非常自(zi)然。
Vidu Q1已拿下海外权威视频生成(cheng)评测榜(bang)单VBench-1.0和(he)VBench-2.0综合榜(bang)单的(de)双冠,分数超越(yue)Runway、Sora、Luma AI等(deng)国内外知名视频生成(cheng)模型,并(bing)在VBench-1.0的(de)视频质量、视频语义一致性和(he)VBench-2.0的(de)常识推理(li)(li)、物理(li)(li)理(li)(li)解(jie)这(zhei)几个综合维度上达到SOTA水(shui)平(ping)(即当前最先进的(de)模型)。
同期,Vidu Q1也在国内权威通用(yong)大模型综(zong)合性测(ce)评基准SuperCLUE最新(xin)的(de)图(tu)生视(shi)频榜单中(zhong),拿下(xia)动漫风(feng)格(ge)、写实风(feng)格(ge)双榜单的(de)第(di)一。
生(sheng)(sheng)数(shu)科技还推出(chu)了全新(xin)AI音(yin)效功(gong)能,支持一句话生(sheng)(sheng)成专属音(yin)效、精细控制每段音(yin)频(pin)的出(chu)现时(shi)间点。
一、两张图实现电影级运镜,视频生成风格多元,多人物遮挡也不会崩
Vidu Q1首尾帧功能(neng)升级,基(ji)于(yu)两张图即可实现电影(ying)级运镜(jing)。
比(bi)如上传这(zhei)两(liang)张(zhang)图,分(fen)别(bie)作(zuo)为首(shou)帧(zhen)和尾帧(zhen):
输入提示词“女特工手持手枪,射出子弹,子弹穿破玻璃球瞬间爆炸,吉恩·科兰的漫画风格,紧张刺激的动画场景”后,Vidu Q1生成的视频效果是这样的:
在生成电影场景方面,Vidu的画面表(biao)现力已经接近以假(jia)乱真的水平,而且能够对复杂语义(yi)理解到(dao)位。
例如(ru),让Vidu Q1按(an)如(ru)下提示词生(sheng)成视(shi)频:
提示词:深夜古堡(bao)的(de)(de)(de)走廊(lang),身穿西(xi)装(zhuang)的(de)(de)(de)男子手持蜡烛转身走在(zai)走廊(lang)中,两旁的(de)(de)(de)灯(deng)光忽明忽暗,紧(jin)张(zhang)刺激的(de)(de)(de)氛(fen)围,推进镜头(tou)(tou)拍(pai)摄(she),镜头(tou)(tou)定格在(zai)男子的(de)(de)(de)脸(lian)。
提示词:寂静的车厢里,老人(ren)抽着香烟,烟雾弥漫,车厢内的灯(deng)光忽(hu)(hu)明忽(hu)(hu)暗,镜头(tou)推进(jin)拍(pai)摄,推进(jin)到老人(ren)的脸部。
提示(shi)词:镜头聚焦(jiao)于一位身穿皮夹克的(de)(de)男子,他(ta)独自行(xing)走在(zai)白天的(de)(de)城(cheng)市街(jie)道上(shang)。阳光在(zai)人行(xing)道上(shang)投射出逼(bi)真的(de)(de)阴影(ying),背景中是汽车和行(xing)人,而模糊的(de)(de)画面(mian)则以(yi)电影(ying)般的(de)(de)照(zhao)片写实风格呈现(xian)。
在主角快速移动且存(cun)在遮挡(dang)的(de)情景下,Vidu Q1依然能够生成人物运动自然、稳(wen)定的(de)视(shi)频。
提(ti)示词:一张黑白照片,一位优(you)雅的黑发(fa)女子(zi)穿过人(ren)群,动(dong)作模糊,从街道拍摄,穿着现代服装,空灵,穿越时空,电影(ying)摄影(ying),对比,颗(ke)粒
在Vidu模型已经非(fei)常擅(shan)长(zhang)的(de)AI动(dong)漫场景,Vidu Q1继续保(bao)持(chi)行业领(ling)先并再(zai)度(du)升级动(dong)漫风(feng)格,支持(chi)日漫、3D动(dong)漫等多元化动(dong)漫风(feng)格,风(feng)格一(yi)致性较好(hao),动(dong)态表现自然、稳定(ding)流畅,画面(mian)生动(dong)。
提(ti)示词(ci):充(chong)满活力的(de)(de)(de)动(dong)漫风格(ge)水下场景,一个睁大眼(yan)睛的(de)(de)(de)女孩,有(you)着飘(piao)逸的(de)(de)(de)水蓝色双马尾和水手风格(ge)的(de)(de)(de)校服,轻轻地悬浮在(zai)水中,伸(shen)手去(qu)够(gou)在(zai)闪(shan)闪(shan)发光(guang)的(de)(de)(de)气泡和旋转的(de)(de)(de)光(guang)束(shu)中嬉(xi)戏游动(dong)的(de)(de)(de)金橙色锦鲤鱼,魔幻的(de)(de)(de)氛围,超(chao)细节,吉卜力风格(ge)的(de)(de)(de)幻想,16:9 的(de)(de)(de)宽高比
提示词:一个(ge)身穿(chuan)运动(dong)服(fu)的(de)超现实动(dong)漫风(feng)格女孩,被(bei)特写镜(jing)头(tou)捕捉到,她满脸(lian)雀斑(ban),汗流(liu)浃背,脸(lian)颊绯红(hong),睁大的(de)眼睛反映出情(qing)感和(he)好奇,对着(zhe)镜(jing)头(tou)眨眼微笑(xiao),慢(man)慢(man)地把手伸向屏幕(mu),广角微距镜(jing)头(tou)拍摄,超现实的(de)纹理与风(feng)格化的(de)柔和(he)相结合,充(chong)满情(qing)感的(de)时刻,16:9 的(de)宽高(gao)比(bi)”
由于我们把Vidu Q1生成视频转(zhuan)换成了gif动(dong)图格式(shi),画质(zhi)有所(suo)压缩。原视频很高清,可以看到(dao)皮肤上清晰(xi)逼真的(de)纹理(li)和汗迹。
Vidu Q1同(tong)时支(zhi)持文(wen)生视(shi)频(pin)、图(tu)生视(shi)频(pin),下方是用(yong)图(tu)生视(shi)频(pin)功(gong)能(neng)生成(cheng)的日漫风格视(shi)频(pin)示例。
二、AI音效功能发布:精准控制时间点,可多段音效叠加,率先支持48KHz高保真
除了上线Vidu Q1外,生数(shu)科技还(hai)推出了全新AI音效(AI Sound Effects)功能(neng)。该(gai)功能(neng)具有三个主要特点:
(1)精准Timing:可精准控制每段音效的长短区间,精准设置每段音频出现的时间点,如0-2s风声、3-5s雨声,是商业领域全球首家支(zhi)持(chi)精细化时间控制(zhi)的文生音效系统。
(2)音效叠加:支持多(duo)段音(yin)效叠加,比如暴(bao)雨(yu)天(tian)的(de)场景,涉(she)及雨(yu)声(sheng)(sheng)、风声(sheng)(sheng)、打(da)雷(lei)声(sheng)(sheng)等多(duo)种类型声(sheng)(sheng)音(yin)的(de)混合(he),可以通(tong)过“音(yin)效叠加”来实现层次分明且动(dong)态变化的(de)音(yin)效,具备影(ying)视级混音(yin)表达力。
例如用它生成键盘声咖啡机的复合(he)音(yin)效。
提示词:{“提示”: “@{敲打键盘 & <0.00,8.00>}@{打印机噪声(sheng) & <2.00,3.00>}@{咖(ka)啡机 & <4.50,5.50>}”,”开始秒数”: 0,”开始秒数”: 8.0}
(3)高采样率音频,高保真音质:行业(ye)大部(bu)分为16kHz、32kHz,Vidu做出了(le)商业(ye)领(ling)域全球(qiu)首(shou)家(jia)支持48KHz的(de)文生音(yin)(yin)效系统,解决音(yin)(yin)效刺(ci)耳、压(ya)缩失(shi)真、声音(yin)(yin)不(bu)自(zi)然流畅等问题。
可以感受下用该功能生成的(de)48kHz高保真蟋蟀声、“世界毁灭”氛(fen)围感音(yin)效(xiao):
提(ti)示词:蟋蟀声
提示词(ci):形容世界毁(hui)灭(mie)的(de)音乐
结语:AI视频生成进步提速,正重塑视频制作方式
生(sheng)成式AI正以前所未有的速度(du)重塑(su)视(shi)(shi)频(pin)制(zhi)作的方式。AI视(shi)(shi)频(pin)生(sheng)成工具(ju)的迭代升级,有望使(shi)动漫、影视(shi)(shi)、广(guang)告(gao)、视(shi)(shi)频(pin)剪辑(ji)、UGC创作平台等众多(duo)行业受益。
近(jin)年来,AI视频(pin)(pin)生成(cheng)模(mo)型的进步日新月(yue)异,从(cong)只能(neng)生成(cheng)几秒钟的简单视频(pin)(pin)画面,逐渐发展到能(neng)够输出更加复杂、连(lian)贯、自(zi)然(ran)的高质量(liang)视频(pin)(pin)内(nei)容(rong),不断为视频(pin)(pin)内(nei)容(rong)创作(zuo)拓宽边(bian)界和降低门槛。
从Vidu Q1的(de)发布可以看(kan)到(dao),准确的(de)语义理解、拟真的(de)表现(xian)力、角(jiao)色稳(wen)定(ding)一(yi)致、强时空(kong)连贯性等特性,是当前视频(pin)生(sheng)成模型提高输出质量的(de)重(zhong)要(yao)优化方(fang)向。
与此同时(shi),更好用的(de)AI视频工具还要搭配更丰富、便(bian)利的(de)编辑功能(neng)。
生(sheng)数科(ke)技(ji)最新(xin)推出的(de)AI音效功(gong)能(neng)可与视(shi)频(pin)(pin)生(sheng)成功(gong)能(neng)形成互(hu)补(bu),根据视(shi)频(pin)(pin)或场景,用一(yi)段文字即可自动生(sheng)成符(fu)合氛(fen)围(wei)、精准(zhun)匹配(pei)视(shi)频(pin)(pin)画面的(de)背景音乐(le)或个性化(hua)音效,有助于减少(shao)搜索(suo)音效库(ku)的(de)时间(jian),甚至减少(shao)对昂贵版权(quan)音乐(le)的(de)依赖(lai)。