智东西(公众号:zhidxcom
作者 | 香草
编辑 | 李水青

全量上线,免费可用!

智东西7月26日报道,今天一早,大模型独角兽智谱AI正式发布视频生成工具清影,可支持文生、图生6秒时长的视频,即日起在PC端、手机App端以及小程序端面向所有C端用户免费开放

先(xian)来看看效果,以下是几个官方放出的文生(sheng)和图生(sheng)视(shi)频(pin)案例,覆(fu)盖人(ren)像、动物、3D卡通等(deng)场(chang)景:

智谱AI“中国版Sora”实测:6秒视频排队2分钟,猫猫很可爱,人手很翻车

从Demo来(lai)看,清(qing)影的(de)生成(cheng)效果虽(sui)然相比Sora等还(hai)有一定进(jin)步空间,但(dan)就整体而言(yan)流畅度(du)、运(yun)动幅度(du)等都很不(bu)错,无论是人物表情、动作,还(hai)是光影变(bian)化(hua)、镜头移(yi)动,都没有明显的(de)卡顿和突兀(wu)感,对运(yun)动幅度(du)的(de)把控也恰到(dao)好处,不(bu)会看起来(lai)像PPT也不(bu)会过于夸张。

此外,虽然生成是完全免费的,但生成视频需要排队,智谱AI提供了两种加速排队的订阅(yue)方(fang)式,包(bao)括5元加(jia)速1天、199元加(jia)速1年。

清影API今天也同步上线,企业和开发者都可以通过调用API的方式,体验并使用清影的文生、图生视频能力,据称这也是国内上线的首个视频生成API

智谱AI CEO张鹏解读,清影基于自研的底座视频生成模型CogVideoX打(da)造,能将文(wen)本、时(shi)间(jian)、空间(jian)三(san)个(ge)维度(du)融(rong)合(he)起来。该模(mo)型参考Sora算法设计,采用了DiT架构(gou),相比前代(dai)CogVideo模(mo)型推(tui)理速(su)度(du)提升了6倍。

智(zhi)谱(pu)AI成立于2019年6月,起(qi)源于清华大(da)(da)学计算机(ji)系知识(shi)工程实验室,专注于开发(fa)新一(yi)代认(ren)知智(zhi)能大(da)(da)模型(xing)。一(yi)直以来,智(zhi)谱(pu)AI以对(dui)标OpenAI全模型(xing)产品线(xian)为(wei)线(xian)索,陆续研发(fa)了包括文本(ben)、代码、图像(xiang)、Agent等(deng)方面(mian)的(de)自研模型(xing)和产品矩阵(zhen)。此(ci)次发(fa)布基于CogVideoX的(de)清影,使其大(da)(da)模型(xing)矩阵(zhen)又扩充类(lei)一(yi)个(ge)模态。

值得一提的是(shi),这(zhei)(zhei)也是(shi)国内(nei)做语言(yan)大模型起家的大模型独角兽,首次(ci)推出视频生成产品——之前这(zhei)(zhei)个赛(sai)道(dao)更多的是(shi)字节(jie)、快手等短视频大厂,以及(ji)爱(ai)诗(shi)科技、生数(shu)科技等专注于(yu)视频生成模型的创企。

清影具体有哪些特点?其底层模型在哪些方面做了创新?具体效果如何?智东西第一时间上手实测了一番,有以下几点发现:

1、简短的提示词效果更好,复杂指令下会丢失细节。

2、人手仍是重灾区,容易出现画(hua)面闪烁的现象。

3、生成很快,但加上排队等待时间仍达到1-2分(fen)钟

4、相比图生视频,文生视频的稳定性更高

智谱AI“中国版Sora”实测:6秒视频排队2分钟,猫猫很可爱,人手很翻车

当然,有限次的体(ti)验无法做(zuo)到全面(mian),也欢迎感(gan)(gan)兴趣的读(du)者朋(peng)友,在评(ping)论(lun)区分享(xiang)体(ti)验感(gan)(gan)受和新发现~

一、半分钟生成6秒视频,复杂指令、内容连贯

清影主要有4个(ge)特(te)点:生成速度快、复杂指令遵从能力强、内(nei)容连贯(guan)性高以及画面调度幅度大。

首先在生成速度上,清影AI据称可以在30秒内(nei)生成一段(duan)6秒、帧率16fps、分辨率1440*960的视频(pin)。

智谱AI“中国版Sora”实测:6秒视频排队2分钟,猫猫很可爱,人手很翻车

▲实时演(yan)示视频生成(动图有加速)

其次,在复杂指令遵从能力上,智(zhi)谱AI自研了(le)视(shi)频(pin)理(li)解模型,用于(yu)为视(shi)频(pin)数据生(sheng)成(cheng)高度吻合(he)的文本(ben)描述,进而构(gou)建(jian)了(le)海量高质量视(shi)频(pin)文本(ben)对,提(ti)升(sheng)了(le)指令遵(zun)循度。

智谱AI“中国版Sora”实测:6秒视频排队2分钟,猫猫很可爱,人手很翻车

▲复杂指令演示

清影的第三个特点是内容连贯性,能(neng)够比较(jiao)好地还原物理(li)世(shi)界当(dang)中的(de)一些运动的(de)过(guo)程。

例如基于这(zhei)张(zhang)大家熟悉的(de)杜甫(fu)画(hua)作,清影让(rang)杜甫(fu)不仅动了起(qi)来(lai),而(er)且非常自然顺滑地(di)端起(qi)了一杯咖啡。

智谱AI“中国版Sora”实测:6秒视频排队2分钟,猫猫很可爱,人手很翻车

▲内容连贯性

最后在画面调度方(fang)面,清影采用文(wen)本、时间(jian)、空(kong)间(jian)融(rong)合的(de)Diffusion Transformer架构,可生成遵循特定(ding)运动规(gui)则的(de)动态(tai)视频。

智谱AI豪迈地放出了几十个Demo,其中不乏有一些效果惊艳,比如这个:木头上长出两朵奇特的透明塑料花

智谱AI“中国版Sora”实测:6秒视频排队2分钟,猫猫很可爱,人手很翻车

“透明塑料花(hua)”不是真实存在的,清影的想象力和审(shen)美在这个案(an)例中得以展现。

再比如这个:比得兔开小汽车,游走在马路上,脸上的表情充满开心喜悦,全景画面

智谱AI“中国版Sora”实测:6秒视频排队2分钟,猫猫很可爱,人手很翻车

清影绘制的兔子(zi)表(biao)情很丰(feng)富,没有出(chu)现五官扭曲的情况,前后景别还加了景深处理。

人像案例清影也拿捏住了,比如这个提示词:油画风格,美丽的少女侧颜,光透过树形成斑驳的影子,柔光落在她脸上

智谱AI“中国版Sora”实测:6秒视频排队2分钟,猫猫很可爱,人手很翻车

整个(ge)画(hua)(hua)面光影(ying)对(dui)比鲜(xian)明,不(bu)过漏失了“油(you)画(hua)(hua)”、“斑驳(bo)的影(ying)子”等(deng)细节(jie)。

二、实测上手有惊艳也有翻车,付费加速有些鸡肋

官方演示虽好,但(dan)清影(ying)到底好不(bu)好用,还是得自(zi)己(ji)试一下才能知道(dao)。打(da)开清影(ying)网页端,可以看到有文生(sheng)、图生(sheng)视频两种功能。

智谱AI“中国版Sora”实测:6秒视频排队2分钟,猫猫很可爱,人手很翻车

▲清影网页端

文生视频中,我可(ke)以(yi)选择视频风格,包(bao)(bao)括卡通3D、黑白老照片、油画等;也可(ke)以(yi)选择情感氛围(wei),包(bao)(bao)括温馨和(he)谐(xie)、生动活(huo)泼、紧(jin)张刺激、凄凉寂寞等;运镜方式包(bao)(bao)括水平(ping)、垂直、推近、拉远(yuan)四种(zhong)。

图生视频中,我可(ke)以为图片添加文字描述,如(ru)果不(bu)知道写什么也可(ke)以空着,或(huo)是让(rang)系统随机生成一个提示词(ci)。

智谱AI“中国版Sora”实测:6秒视频排队2分钟,猫猫很可爱,人手很翻车

▲两种模式

首先我尝试了一组动物场景的提示词,第一个为:一只蓝猫在猫爬架上,正在吃主人递过来的芝士汉堡,情(qing)感(gan)氛围选择(ze)了温馨(xin)和(he)谐(xie)。

智谱AI“中国版Sora”实测:6秒视频排队2分钟,猫猫很可爱,人手很翻车

可以(yi)看到,清影准确理解了提示(shi)词,整体效果(guo)还是很不错的(de)。对于(yu)提示(shi)词中细节,包括猫的(de)品(pin)种、汉堡的(de)种类(lei)以(yi)及“递过(guo)来”的(de)动作等,都(dou)表达(da)得比(bi)较精准,人手也没有翻车。

第二个提示词为:一只橘猫把鼠标推下桌子,情(qing)感氛(fen)围为生(sheng)动活泼。

智谱AI“中国版Sora”实测:6秒视频排队2分钟,猫猫很可爱,人手很翻车

这次清影表现得一(yi)般(ban),鼠标上莫名其妙拴了一(yi)只小老鼠就算了,“推下(xia)桌子”的动作也(ye)是完全没有(you)体(ti)现。

前两个提示词都属于写实场景,第三个提示词则有些“魔幻现实”:一只白猫在车里驾驶,穿过繁忙的市区街道,背景是高楼和行人,情感氛围为(wei)紧张刺激。

智谱AI“中国版Sora”实测:6秒视频排队2分钟,猫猫很可爱,人手很翻车

清影对于(yu)这个提(ti)示词的(de)理解和呈现都还比较(jiao)(jiao)准确,背景(jing)中(zhong)动(dong)态场(chang)景(jing)的(de)运(yun)动(dong)幅(fu)度、一(yi)致性也比较(jiao)(jiao)高,但是稳定性还有所欠缺,画面会(hui)出(chu)现抖动(dong)的(de)情况。

第二组提示词我尝试了人物场景。首先来试试经典的吃面:一个男人坐在桌边吃面条,情感氛围(wei)为(wei)凄凉寂寞。

智谱AI“中国版Sora”实测:6秒视频排队2分钟,猫猫很可爱,人手很翻车

在这(zhei)个经典(dian)难题上,清影的(de)表现还(hai)算可以,乍(zha)一(yi)看没什么(me)错误。但细看之(zhi)下,男人(ren)吃面(mian)的(de)餐具用的(de)是勺子(zi),面(mian)条(tiao)的(de)形态(tai)也有些僵硬。

第二个提示词是:一个女孩坐在米色沙发上,专心地用钩针勾着一顶浅蓝色帽子,情感氛围(wei)为温馨和(he)谐。

智谱AI“中国版Sora”实测:6秒视频排队2分钟,猫猫很可爱,人手很翻车

这(zhei)条提示词(ci)中我(wo)加入了色彩(cai)的细节,清影都准(zhun)确地表现了出来。女孩的钩织(zhi)动(dong)作也比(bi)较真实,就是人手非常“鬼畜”。

第三个提示词为:漂亮的水色瞳孔特写,写实风格,超清,情(qing)感氛(fen)围为凄凉寂寞。

智谱AI“中国版Sora”实测:6秒视频排队2分钟,猫猫很可爱,人手很翻车

清影生成的视(shi)频基本上(shang)满足了我的预(yu)期(qi),不过(guo)在特(te)写镜头下(xia),人物的皮(pi)肤和毛发(fa)都显得有些“油腻”。

最后我尝试了让清影自己生成提示词,它直接整了这么长一段:雨天的咖啡馆,以窗户为媒介拍摄一个英式咖啡馆内部,要清晰的拍摄咖啡馆内部,捕捉咖啡馆内的温馨氛围,然后变焦,对焦在雨滴拍打的窗户上。细节上,注意捕捉顾客们的交谈和笑容,以及雨水在窗户上形成的光影效果,营造出舒适而宁静的氛围。

智谱AI“中国版Sora”实测:6秒视频排队2分钟,猫猫很可爱,人手很翻车

结(jie)果很遗憾,清影自己(ji)给自己(ji)挖了(le)个(ge)坑,生成的不能说是(shi)视频(pin),称之为(wei)动图都(dou)有些为(wei)难。画面仅仅是(shi)平移放(fang)大(da)了(le)一圈,也(ye)没能体现提(ti)示词中的大(da)部分内容。

体验完文生视频后,我又尝试了图生视频

首先在上传图片时,清影会提醒我对图片进行裁切,且只能裁成进行固定比例的横图,这就造成了一定的局限性。上传图片之后,我输入提示词:花瓣在风中摇动

智谱AI“中国版Sora”实测:6秒视频排队2分钟,猫猫很可爱,人手很翻车

生成效(xiao)果还是比较准确(que)的(de),不(bu)过这个提示(shi)词(ci)本身的(de)难度也不(bu)算大。

接着我上传了一张静(jing)物(wu)图,这(zhei)次没有输入(ru)提示词,看看清(qing)影会如何自由(you)发(fa)挥。

智谱AI“中国版Sora”实测:6秒视频排队2分钟,猫猫很可爱,人手很翻车

这(zhei)张图上有很多独立(li)的物(wu)体,清影(ying)并(bing)没有让(rang)它们(men)整(zheng)体运动(dong)而是为每个(ge)“小团子(zi)”添加了不(bu)同动(dong)态,整(zheng)体画(hua)面比较生动(dong)活泼。

第三张图我上传了一张戴着墨镜的人像,提示词为:男孩把墨镜摘下来

智谱AI“中国版Sora”实测:6秒视频排队2分钟,猫猫很可爱,人手很翻车

这个提示词(ci)的(de)难度很大,而且涉及到“无中生有(you)”的(de)部(bu)分。清影成功表现了“摘墨镜”这一动(dong)作,不过摘了是摘了,但(dan)没完全摘,墨镜还在人脸(lian)上挂着,视(shi)频(pin)后半段还出现了人体(ti)不自然的(de)扭曲。

如果不要求它凭空生成人脸又会如何?我有上传了一张举着摄像机的人像照片,提示词改为:男孩转身面向镜头

智谱AI“中国版Sora”实测:6秒视频排队2分钟,猫猫很可爱,人手很翻车

结果(guo)这次清影(ying)反而整(zheng)了个(ge)人(ren)(ren)脸出来(lai),就(jiu)是(shi)没(mei)有眼白有些吓人(ren)(ren)……不过忽略脸的(de)话,这次生(sheng)成的(de)效果(guo)转身幅度(du)更大,人(ren)(ren)物的(de)头发也随风飘(piao)动,就(jiu)是(shi)他手(shou)中(zhong)的(de)器材变了个(ge)模样,人(ren)(ren)手(shou)也有些不自然。

一番体验下来,清(qing)影(ying)生成视频的(de)效果有(you)的(de)惊艳(yan)到我(wo),比(bi)如第一个小猫吃汉堡的(de)例(li)子,文字(zi)理解(jie)十分准确;也有(you)的(de)翻车严(yan)重,比(bi)如咖啡(fei)厅、橘猫的(de)例(li)子中(zhong),失误都(dou)比(bi)较(jiao)大。

整体来看,清(qing)影在(zai)生(sheng)成速度上确实(shi)比(bi)(bi)较快,虽(sui)然较宣传的(de)30秒还(hai)有(you)些偏差,但差不多1分钟左右就能生(sheng)成视频;在(zai)运动幅度、语义理解等方面,会比(bi)(bi)较看运气(qi),不过这也是所有(you)视频生(sheng)成工具(ju)的(de)通病。与(yu)市面上其他公开可用的(de)工具(ju)相比(bi)(bi),清(qing)影在(zai)生(sheng)成时长(zhang)、清(qing)晰(xi)度方面还(hai)有(you)一定的(de)进步空间(jian),不支持画面比(bi)(bi)例的(de)选择也是一大遗憾。

值得一提的是,清影目(mu)前(qian)的视频生成是完全免(mian)费的,不(bu)需要会(hui)员订阅也没有数(shu)量限(xian)制。不(bu)过(guo)在(zai)排队生成的过(guo)程(cheng)中,清影提醒我(wo)可(ke)以(yi)加速。点击加速的按钮(niu),可(ke)以(yi)看到(dao)它提供了(le)两种订阅方式:5块钱加速1天,或是199元加速1年。

智谱AI“中国版Sora”实测:6秒视频排队2分钟,猫猫很可爱,人手很翻车

▲加速排队

该说(shuo)不说(shuo),这个价(jia)格还是(shi)很(hen)实惠的,但为啥我(wo)加(jia)完速排(pai)队(dui)时间一(yi)点(dian)也(ye)没(mei)减少呢……唯一(yi)的变化就(jiu)是(shi),从“排(pai)队(dui)中(zhong)”变成了(le)“加(jia)速排(pai)队(dui)中(zhong)”。可(ke)能(neng)费(fei)用太便宜(yi)了(le),大家都加(jia)速就(jiu)相当于没(mei)加(jia)速吧(doge)。

三、自研端到端视频模型,首个API同步上线

清影基于智谱AI自研(yan)的底层模型CogVideoX打造(zao),具有内容连贯、可控性高等特点。

内容连贯性方面,智谱AI自研(yan)了一个高(gao)效的三维变(bian)分自编(bian)码(ma)器结(jie)构,称之为3D VAE。它(ta)能够将(jiang)原视频空间(jian)(jian)压(ya)缩(suo)至2%的大(da)小(xiao),大(da)大(da)减少视频扩散生成模型的训练成本和难度,再配合3D RoPE(旋(xuan)转位置编(bian)码(ma))模块,有利于在时间(jian)(jian)维度上捕捉帧间(jian)(jian)关系,建(jian)立食品(pin)中的长程依赖。

可控性方面,智谱AI自(zi)研了一个(ge)端(duan)到端(duan)的(de)(de)(de)视(shi)频理(li)(li)解模(mo)型,用(yong)于为海(hai)量的(de)(de)(de)视(shi)频数据生(sheng)成详细的(de)(de)(de)、贴合内容的(de)(de)(de)描(miao)述(shu)文(wen)本,从而增强模(mo)型的(de)(de)(de)文(wen)本理(li)(li)解和指令遵循(xun)的(de)(de)(de)能力,使生(sheng)成视(shi)频更符合用(yong)户的(de)(de)(de)输入,理(li)(li)解超长的(de)(de)(de)复杂(za)指令。

模型结构上,CogVideoX采(cai)用了(le)将文(wen)本(ben)、时间(jian)、空间(jian)三个维度全部融合起来的Transformer架构,摒(bing)弃了(le)传统的交叉注意力(Cross-Attention)模块(kuai),将文(wen)本(ben)和(he)视(shi)频两个不同模态的空间(jian)进行对齐,能够(gou)更(geng)好地进行模态交互。

智谱AI“中国版Sora”实测:6秒视频排队2分钟,猫猫很可爱,人手很翻车

▲CogVideoX特点

张鹏称,在CogVideoX的(de)研发过程中,智谱AI有一次(ci)验(yan)证了(le)Scaling Law在视频生成方(fang)面的(de)有效(xiao)性和可靠性,未来团队会在继续(xu)扩大数据规模和模型规模的(de)同时,寻(xun)找更具(ju)突破式创新的(de)模型架构。

智(zhi)谱AI又一次实现了对OpenAI全模型产品线的(de)对标。

智谱AI“中国版Sora”实测:6秒视频排队2分钟,猫猫很可爱,人手很翻车

▲智谱AI对标OpenAI全(quan)模型产品(pin)线

在(zai)算力方面(mian)(mian),清影是(shi)在(zai)北京亦庄AI公共算力平台上训练而(er)来的。数(shu)据层面(mian)(mian),智(zhi)谱AI与Bilibili、华策影视等进行了合作。

张鹏谈道,虽然视频生成模(mo)型才刚刚起(qi)步(bu),但(dan)已(yi)经受到了(le)很多(duo)产(chan)业和(he)客户侧的需求,涉(she)及电商产(chan)品宣传、影视特效等领域。

今(jin)天起,清影AI也同步在智(zhi)谱AI大模型(xing)开放平台上线了(le)API,企业和开发者都可以通过调用API的(de)方式体(ti)验并使用CogVideoX的(de)文(wen)生(sheng)、图生(sheng)视频能力,据称这也是国(guo)内上线的(de)首个视频生(sheng)成(cheng)API。

随(sui)着清影能力的(de)加入,智谱AI旗下的(de)AI助(zhu)手(shou)清言App在功能的(de)全面上(shang)再下一城(cheng),覆盖对话、生图、代(dai)码、Agent和视频。

智谱(pu)AI还准(zhun)备了一个One more thing——视频(pin)生(sheng)视频(pin)能(neng)力。不(bu)过准(zhun)确来(lai)说,这相当于是一个手(shou)动视频(pin)生(sheng)视频(pin)的能(neng)力:基于智谱(pu)AI近日开源的视频(pin)理解模型CogVLM2-Video,用户可(ke)以上传视频(pin)并提取(qu)出详(xiang)细的文字描述,再(zai)将文字输入清影,实现“视频(pin)生(sheng)视频(pin)”的效果。

智谱AI“中国版Sora”实测:6秒视频排队2分钟,猫猫很可爱,人手很翻车

▲视频生视频

结语:又一强力玩家入局AI视频生成

Sora发布后(hou),AI视频生成迎(ying)来“第(di)二春”,无论是(shi)(shi)技术、产品的(de)迭代(dai),还是(shi)(shi)资本(ben)市场的(de)关注,都达(da)到(dao)了新的(de)高度(du)。光是(shi)(shi)本(ben)周,就有快手宣布全(quan)球(qiu)上(shang)线(xian)、爱诗科技发布第(di)二代(dai)模型,以及今天智谱(pu)AI入(ru)局等(deng)重(zhong)磅进(jin)展。()

不(bu)同于此前(qian)的(de)(de)(de)文本、图像模型赛道(dao),国内(nei)长期(qi)处于追逐OpenAI等海外企业进(jin)展的(de)(de)(de)状态。在(zai)视频(pin)生成领(ling)域,国内(nei)的(de)(de)(de)大厂(chang)、创企在(zai)短短几(ji)个(ge)月内(nei)实现弯道(dao)超(chao)车,不(bu)仅打磨出了高质量的(de)(de)(de)底层模型,而且(qie)个(ge)个(ge)公开(kai)可用甚至免费,给至今仍是期(qi)货的(de)(de)(de)Sora上了一课(ke)。