智谱AI“中国版Sora”实测：6秒视频排队2分钟，猫猫很可爱，人手很翻车

智东西（公众号：zhidxcom）
作者 | 香草
编辑 | 李水青

全量上线，免费可用！

智东西7月26日报道，今天一早，大模型独角兽智谱AI正式发布视频生成工具清影，可支持文生、图生6秒时长的视频，即日起在PC端、手机App端以及小程序端面向所有C端用户免费开放。

先(xian)来看看效果，以下是几个官方放出的文生(sheng)和图生(sheng)视(shi)频(pin)案例，覆(fu)盖人(ren)像、动物、3D卡通等(deng)场(chang)景：

智谱AI“中国版Sora”实测：6秒视频排队2分钟，猫猫很可爱，人手很翻车

从Demo来(lai)看，清(qing)影的(de)生成(cheng)效果虽(sui)然相比Sora等还(hai)有一定进(jin)步空间，但(dan)就整体而言(yan)流畅度(du)、运(yun)动幅度(du)等都很不(bu)错，无论是人物表情、动作，还(hai)是光影变(bian)化(hua)、镜头移(yi)动，都没有明显的(de)卡顿和突兀(wu)感，对运(yun)动幅度(du)的(de)把控也恰到(dao)好处，不(bu)会看起来(lai)像PPT也不(bu)会过于夸张。

此外，虽然生成是完全免费的，但生成视频需要排队，智谱AI提供了两种加速排队的订阅(yue)方(fang)式，包(bao)括5元加(jia)速1天、199元加(jia)速1年。

清影API今天也同步上线，企业和开发者都可以通过调用API的方式，体验并使用清影的文生、图生视频能力，据称这也是国内上线的首个视频生成API。

据智谱AI CEO张鹏解读，清影基于自研的底座视频生成模型CogVideoX打(da)造，能将文(wen)本、时(shi)间(jian)、空间(jian)三(san)个(ge)维度(du)融(rong)合(he)起来。该模(mo)型参考Sora算法设计，采用了DiT架构(gou)，相比前代(dai)CogVideo模(mo)型推(tui)理速(su)度(du)提升了6倍。

智(zhi)谱(pu)AI成立于2019年6月，起(qi)源于清华大(da)(da)学计算机(ji)系知识(shi)工程实验室，专注于开发(fa)新一(yi)代认(ren)知智(zhi)能大(da)(da)模型(xing)。一(yi)直以来，智(zhi)谱(pu)AI以对(dui)标OpenAI全模型(xing)产品线(xian)为(wei)线(xian)索，陆续研发(fa)了包括文本(ben)、代码、图像(xiang)、Agent等(deng)方面(mian)的(de)自研模型(xing)和产品矩阵(zhen)。此(ci)次发(fa)布基于CogVideoX的(de)清影，使其大(da)(da)模型(xing)矩阵(zhen)又扩充类(lei)一(yi)个(ge)模态。

值得一提的是(shi)，这(zhei)(zhei)也是(shi)国内(nei)做语言(yan)大模型起家的大模型独角兽，首次(ci)推出视频生成产品——之前这(zhei)(zhei)个赛(sai)道(dao)更多的是(shi)字节(jie)、快手等短视频大厂，以及(ji)爱(ai)诗(shi)科技、生数(shu)科技等专注于(yu)视频生成模型的创企。

清影具体有哪些特点？其底层模型在哪些方面做了创新？具体效果如何？智东西第一时间上手实测了一番，有以下几点发现：

1、简短的提示词效果更好，复杂指令下会丢失细节。

2、人手仍是重灾区，容易出现画(hua)面闪烁的现象。

3、生成很快，但加上排队等待时间仍达到1-2分(fen)钟。

4、相比图生视频，文生视频的稳定性更高。

智谱AI“中国版Sora”实测：6秒视频排队2分钟，猫猫很可爱，人手很翻车

当然，有限次的体(ti)验无法做(zuo)到全面(mian)，也欢迎感(gan)(gan)兴趣的读(du)者朋(peng)友，在评(ping)论(lun)区分享(xiang)体(ti)验感(gan)(gan)受和新发现~

一、半分钟生成6秒视频，复杂指令、内容连贯

清影主要有4个(ge)特(te)点：生成速度快、复杂指令遵从能力强、内(nei)容连贯(guan)性高以及画面调度幅度大。

首先在生成速度上，清影AI据称可以在30秒内(nei)生成一段(duan)6秒、帧率16fps、分辨率1440*960的视频(pin)。

智谱AI“中国版Sora”实测：6秒视频排队2分钟，猫猫很可爱，人手很翻车

▲实时演(yan)示视频生成（动图有加速）

其次，在复杂指令遵从能力上，智(zhi)谱AI自研了(le)视(shi)频(pin)理(li)解模型，用于(yu)为视(shi)频(pin)数据生(sheng)成(cheng)高度吻合(he)的文本(ben)描述，进而构(gou)建(jian)了(le)海量高质量视(shi)频(pin)文本(ben)对，提(ti)升(sheng)了(le)指令遵(zun)循度。

智谱AI“中国版Sora”实测：6秒视频排队2分钟，猫猫很可爱，人手很翻车

▲复杂指令演示

清影的第三个特点是内容连贯性，能(neng)够比较(jiao)好地还原物理(li)世(shi)界当(dang)中的(de)一些运动的(de)过(guo)程。

例如基于这(zhei)张(zhang)大家熟悉的(de)杜甫(fu)画(hua)作，清影让(rang)杜甫(fu)不仅动了起(qi)来(lai)，而(er)且非常自然顺滑地(di)端起(qi)了一杯咖啡。

智谱AI“中国版Sora”实测：6秒视频排队2分钟，猫猫很可爱，人手很翻车

▲内容连贯性

最后在画面调度方(fang)面，清影采用文(wen)本、时间(jian)、空(kong)间(jian)融(rong)合的(de)Diffusion Transformer架构，可生成遵循特定(ding)运动规(gui)则的(de)动态(tai)视频。

智谱AI豪迈地放出了几十个Demo，其中不乏有一些效果惊艳，比如这个：木头上长出两朵奇特的透明塑料花。

智谱AI“中国版Sora”实测：6秒视频排队2分钟，猫猫很可爱，人手很翻车

“透明塑料花(hua)”不是真实存在的，清影的想象力和审(shen)美在这个案(an)例中得以展现。

再比如这个：比得兔开小汽车，游走在马路上，脸上的表情充满开心喜悦，全景画面。

智谱AI“中国版Sora”实测：6秒视频排队2分钟，猫猫很可爱，人手很翻车

清影绘制的兔子(zi)表(biao)情很丰(feng)富，没有出(chu)现五官扭曲的情况，前后景别还加了景深处理。

人像案例清影也拿捏住了，比如这个提示词：油画风格，美丽的少女侧颜，光透过树形成斑驳的影子，柔光落在她脸上。

智谱AI“中国版Sora”实测：6秒视频排队2分钟，猫猫很可爱，人手很翻车

整个(ge)画(hua)(hua)面光影(ying)对(dui)比鲜(xian)明，不(bu)过漏失了“油(you)画(hua)(hua)”、“斑驳(bo)的影(ying)子”等(deng)细节(jie)。

二、实测上手有惊艳也有翻车，付费加速有些鸡肋

官方演示虽好，但(dan)清影(ying)到底好不(bu)好用，还是得自(zi)己(ji)试一下才能知道(dao)。打(da)开清影(ying)网页端，可以看到有文生(sheng)、图生(sheng)视频两种功能。

智谱AI“中国版Sora”实测：6秒视频排队2分钟，猫猫很可爱，人手很翻车

▲清影网页端

在文生视频中，我可(ke)以(yi)选择视频风格，包(bao)(bao)括卡通3D、黑白老照片、油画等；也可(ke)以(yi)选择情感氛围(wei)，包(bao)(bao)括温馨和(he)谐(xie)、生动活(huo)泼、紧(jin)张刺激、凄凉寂寞等；运镜方式包(bao)(bao)括水平(ping)、垂直、推近、拉远(yuan)四种(zhong)。

在图生视频中，我可(ke)以为图片添加文字描述，如(ru)果不(bu)知道写什么也可(ke)以空着，或(huo)是让(rang)系统随机生成一个提示词(ci)。

智谱AI“中国版Sora”实测：6秒视频排队2分钟，猫猫很可爱，人手很翻车

▲两种模式

首先我尝试了一组动物场景的提示词，第一个为：一只蓝猫在猫爬架上，正在吃主人递过来的芝士汉堡，情(qing)感(gan)氛围选择(ze)了温馨(xin)和(he)谐(xie)。

智谱AI“中国版Sora”实测：6秒视频排队2分钟，猫猫很可爱，人手很翻车

可以(yi)看到，清影准确理解了提示(shi)词，整体效果(guo)还是很不错的(de)。对于(yu)提示(shi)词中细节，包括猫的(de)品(pin)种、汉堡的(de)种类(lei)以(yi)及“递过(guo)来”的(de)动作等，都(dou)表达(da)得比(bi)较精准，人手也没有翻车。

第二个提示词为：一只橘猫把鼠标推下桌子，情(qing)感氛(fen)围为生(sheng)动活泼。

智谱AI“中国版Sora”实测：6秒视频排队2分钟，猫猫很可爱，人手很翻车

这次清影表现得一(yi)般(ban)，鼠标上莫名其妙拴了一(yi)只小老鼠就算了，“推下(xia)桌子”的动作也(ye)是完全没有(you)体(ti)现。

前两个提示词都属于写实场景，第三个提示词则有些“魔幻现实”：一只白猫在车里驾驶，穿过繁忙的市区街道，背景是高楼和行人，情感氛围为(wei)紧张刺激。

智谱AI“中国版Sora”实测：6秒视频排队2分钟，猫猫很可爱，人手很翻车

清影对于(yu)这个提(ti)示词的(de)理解和呈现都还比较(jiao)(jiao)准确，背景(jing)中(zhong)动(dong)态场(chang)景(jing)的(de)运(yun)动(dong)幅(fu)度、一(yi)致性也比较(jiao)(jiao)高，但是稳定性还有所欠缺，画面会(hui)出(chu)现抖动(dong)的(de)情况。

第二组提示词我尝试了人物场景。首先来试试经典的吃面：一个男人坐在桌边吃面条，情感氛围(wei)为(wei)凄凉寂寞。

智谱AI“中国版Sora”实测：6秒视频排队2分钟，猫猫很可爱，人手很翻车

在这(zhei)个经典(dian)难题上，清影的(de)表现还(hai)算可以，乍(zha)一(yi)看没什么(me)错误。但细看之(zhi)下，男人(ren)吃面(mian)的(de)餐具用的(de)是勺子(zi)，面(mian)条(tiao)的(de)形态(tai)也有些僵硬。

第二个提示词是：一个女孩坐在米色沙发上，专心地用钩针勾着一顶浅蓝色帽子，情感氛围(wei)为温馨和(he)谐。

智谱AI“中国版Sora”实测：6秒视频排队2分钟，猫猫很可爱，人手很翻车

这(zhei)条提示词(ci)中我(wo)加入了色彩(cai)的细节，清影都准(zhun)确地表现了出来。女孩的钩织(zhi)动(dong)作也比(bi)较真实，就是人手非常“鬼畜”。

第三个提示词为：漂亮的水色瞳孔特写，写实风格，超清，情(qing)感氛(fen)围为凄凉寂寞。

智谱AI“中国版Sora”实测：6秒视频排队2分钟，猫猫很可爱，人手很翻车

清影生成的视(shi)频基本上(shang)满足了我的预(yu)期(qi)，不过(guo)在特(te)写镜头下(xia)，人物的皮(pi)肤和毛发(fa)都显得有些“油腻”。

最后我尝试了让清影自己生成提示词，它直接整了这么长一段：雨天的咖啡馆，以窗户为媒介拍摄一个英式咖啡馆内部，要清晰的拍摄咖啡馆内部，捕捉咖啡馆内的温馨氛围，然后变焦，对焦在雨滴拍打的窗户上。细节上，注意捕捉顾客们的交谈和笑容，以及雨水在窗户上形成的光影效果，营造出舒适而宁静的氛围。

智谱AI“中国版Sora”实测：6秒视频排队2分钟，猫猫很可爱，人手很翻车

结(jie)果很遗憾，清影自己(ji)给自己(ji)挖了(le)个(ge)坑，生成的不能说是(shi)视频(pin)，称之为(wei)动图都(dou)有些为(wei)难。画面仅仅是(shi)平移放(fang)大(da)了(le)一圈，也(ye)没能体现提(ti)示词中的大(da)部分内容。

体验完文生视频后，我又尝试了图生视频。

首先在上传图片时，清影会提醒我对图片进行裁切，且只能裁成进行固定比例的横图，这就造成了一定的局限性。上传图片之后，我输入提示词：花瓣在风中摇动。

智谱AI“中国版Sora”实测：6秒视频排队2分钟，猫猫很可爱，人手很翻车

生成效(xiao)果还是比较准确(que)的(de)，不(bu)过这个提示(shi)词(ci)本身的(de)难度也不(bu)算大。

接着我上传了一张静(jing)物(wu)图，这(zhei)次没有输入(ru)提示词，看看清(qing)影会如何自由(you)发(fa)挥。

智谱AI“中国版Sora”实测：6秒视频排队2分钟，猫猫很可爱，人手很翻车

这(zhei)张图上有很多独立(li)的物(wu)体，清影(ying)并(bing)没有让(rang)它们(men)整(zheng)体运动(dong)而是为每个(ge)“小团子(zi)”添加了不(bu)同动(dong)态，整(zheng)体画(hua)面比较生动(dong)活泼。

第三张图我上传了一张戴着墨镜的人像，提示词为：男孩把墨镜摘下来。

智谱AI“中国版Sora”实测：6秒视频排队2分钟，猫猫很可爱，人手很翻车

这个提示词(ci)的(de)难度很大，而且涉及到“无中生有(you)”的(de)部(bu)分。清影成功表现了“摘墨镜”这一动(dong)作，不过摘了是摘了，但(dan)没完全摘，墨镜还在人脸(lian)上挂着，视(shi)频(pin)后半段还出现了人体(ti)不自然的(de)扭曲。

如果不要求它凭空生成人脸又会如何？我有上传了一张举着摄像机的人像照片，提示词改为：男孩转身面向镜头。

智谱AI“中国版Sora”实测：6秒视频排队2分钟，猫猫很可爱，人手很翻车

结果(guo)这次清影(ying)反而整(zheng)了个(ge)人(ren)(ren)脸出来(lai)，就(jiu)是(shi)没(mei)有眼白有些吓人(ren)(ren)……不过忽略脸的(de)话，这次生(sheng)成的(de)效果(guo)转身幅度(du)更大，人(ren)(ren)物的(de)头发也随风飘(piao)动，就(jiu)是(shi)他手(shou)中(zhong)的(de)器材变了个(ge)模样，人(ren)(ren)手(shou)也有些不自然。

一番体验下来，清(qing)影(ying)生成视频的(de)效果有(you)的(de)惊艳(yan)到我(wo)，比(bi)如第一个小猫吃汉堡的(de)例(li)子，文字(zi)理解(jie)十分准确；也有(you)的(de)翻车严(yan)重，比(bi)如咖啡(fei)厅、橘猫的(de)例(li)子中(zhong)，失误都(dou)比(bi)较(jiao)大。

整体来看，清(qing)影在(zai)生(sheng)成速度上确实(shi)比(bi)(bi)较快，虽(sui)然较宣传的(de)30秒还(hai)有(you)些偏差，但差不多1分钟左右就能生(sheng)成视频；在(zai)运动幅度、语义理解等方面，会比(bi)(bi)较看运气(qi)，不过这也是所有(you)视频生(sheng)成工具(ju)的(de)通病。与(yu)市面上其他公开可用的(de)工具(ju)相比(bi)(bi)，清(qing)影在(zai)生(sheng)成时长(zhang)、清(qing)晰(xi)度方面还(hai)有(you)一定的(de)进步空间(jian)，不支持画面比(bi)(bi)例的(de)选择也是一大遗憾。

值得一提的是，清影目(mu)前(qian)的视频生成是完全免(mian)费的，不(bu)需要会(hui)员订阅也没有数(shu)量限(xian)制。不(bu)过(guo)在(zai)排队生成的过(guo)程(cheng)中，清影提醒我(wo)可(ke)以(yi)加速。点击加速的按钮(niu)，可(ke)以(yi)看到(dao)它提供了(le)两种订阅方式：5块钱加速1天，或是199元加速1年。

智谱AI“中国版Sora”实测：6秒视频排队2分钟，猫猫很可爱，人手很翻车

▲加速排队

该说(shuo)不说(shuo)，这个价(jia)格还是(shi)很(hen)实惠的，但为啥我(wo)加(jia)完速排(pai)队(dui)时间一(yi)点(dian)也(ye)没(mei)减少呢……唯一(yi)的变化就(jiu)是(shi)，从“排(pai)队(dui)中(zhong)”变成了(le)“加(jia)速排(pai)队(dui)中(zhong)”。可(ke)能(neng)费(fei)用太便宜(yi)了(le)，大家都加(jia)速就(jiu)相当于没(mei)加(jia)速吧（doge）。

三、自研端到端视频模型，首个API同步上线

清影基于智谱AI自研(yan)的底层模型CogVideoX打造(zao)，具有内容连贯、可控性高等特点。

在内容连贯性方面，智谱AI自研(yan)了一个高(gao)效的三维变(bian)分自编(bian)码(ma)器结(jie)构，称之为3D VAE。它(ta)能够将(jiang)原视频空间(jian)(jian)压(ya)缩(suo)至2%的大(da)小(xiao)，大(da)大(da)减少视频扩散生成模型的训练成本和难度，再配合3D RoPE（旋(xuan)转位置编(bian)码(ma)）模块，有利于在时间(jian)(jian)维度上捕捉帧间(jian)(jian)关系，建(jian)立食品(pin)中的长程依赖。

在可控性方面，智谱AI自(zi)研了一个(ge)端(duan)到端(duan)的(de)(de)(de)视(shi)频理(li)(li)解模(mo)型，用(yong)于为海(hai)量的(de)(de)(de)视(shi)频数据生(sheng)成详细的(de)(de)(de)、贴合内容的(de)(de)(de)描(miao)述(shu)文(wen)本，从而增强模(mo)型的(de)(de)(de)文(wen)本理(li)(li)解和指令遵循(xun)的(de)(de)(de)能力，使生(sheng)成视(shi)频更符合用(yong)户的(de)(de)(de)输入，理(li)(li)解超长的(de)(de)(de)复杂(za)指令。

在模型结构上，CogVideoX采(cai)用了(le)将文(wen)本(ben)、时间(jian)、空间(jian)三个维度全部融合起来的Transformer架构，摒(bing)弃了(le)传统的交叉注意力（Cross-Attention）模块(kuai)，将文(wen)本(ben)和(he)视(shi)频两个不同模态的空间(jian)进行对齐，能够(gou)更(geng)好地进行模态交互。

智谱AI“中国版Sora”实测：6秒视频排队2分钟，猫猫很可爱，人手很翻车

▲CogVideoX特点

张鹏称，在CogVideoX的(de)研发过程中，智谱AI有一次(ci)验(yan)证了(le)Scaling Law在视频生成方(fang)面的(de)有效(xiao)性和可靠性，未来团队会在继续(xu)扩大数据规模和模型规模的(de)同时，寻(xun)找更具(ju)突破式创新的(de)模型架构。

智(zhi)谱AI又一次实现了对OpenAI全模型产品线的(de)对标。

智谱AI“中国版Sora”实测：6秒视频排队2分钟，猫猫很可爱，人手很翻车

▲智谱AI对标OpenAI全(quan)模型产品(pin)线

在(zai)算力方面(mian)(mian)，清影是(shi)在(zai)北京亦庄AI公共算力平台上训练而(er)来的。数(shu)据层面(mian)(mian)，智(zhi)谱AI与Bilibili、华策影视等进行了合作。

张鹏谈道，虽然视频生成模(mo)型才刚刚起(qi)步(bu)，但(dan)已(yi)经受到了(le)很多(duo)产(chan)业和(he)客户侧的需求，涉(she)及电商产(chan)品宣传、影视特效等领域。

今(jin)天起，清影AI也同步在智(zhi)谱AI大模型(xing)开放平台上线了(le)API，企业和开发者都可以通过调用API的(de)方式体(ti)验并使用CogVideoX的(de)文(wen)生(sheng)、图生(sheng)视频能力，据称这也是国(guo)内上线的(de)首个视频生(sheng)成(cheng)API。

随(sui)着清影能力的(de)加入，智谱AI旗下的(de)AI助(zhu)手(shou)清言App在功能的(de)全面上(shang)再下一城(cheng)，覆盖对话、生图、代(dai)码、Agent和视频。

智谱(pu)AI还准(zhun)备了一个One more thing——视频(pin)生(sheng)视频(pin)能(neng)力。不(bu)过准(zhun)确来(lai)说，这相当于是一个手(shou)动视频(pin)生(sheng)视频(pin)的能(neng)力：基于智谱(pu)AI近日开源的视频(pin)理解模型CogVLM2-Video，用户可(ke)以上传视频(pin)并提取(qu)出详(xiang)细的文字描述，再(zai)将文字输入清影，实现“视频(pin)生(sheng)视频(pin)”的效果。

智谱AI“中国版Sora”实测：6秒视频排队2分钟，猫猫很可爱，人手很翻车

▲视频生视频

结语：又一强力玩家入局AI视频生成

Sora发布后(hou)，AI视频生成迎(ying)来“第(di)二春”，无论是(shi)(shi)技术、产品的(de)迭代(dai)，还是(shi)(shi)资本(ben)市场的(de)关注，都达(da)到(dao)了新的(de)高度(du)。光是(shi)(shi)本(ben)周，就有快手宣布全(quan)球(qiu)上(shang)线(xian)、爱诗科技发布第(di)二代(dai)模型，以及今天智谱(pu)AI入(ru)局等(deng)重(zhong)磅进(jin)展。（）

不(bu)同于此前(qian)的(de)(de)(de)文本、图像模型赛道(dao)，国内(nei)长期(qi)处于追逐OpenAI等海外企业进(jin)展的(de)(de)(de)状态。在(zai)视频(pin)生成领(ling)域，国内(nei)的(de)(de)(de)大厂(chang)、创企在(zai)短短几(ji)个(ge)月内(nei)实现弯道(dao)超(chao)车，不(bu)仅打磨出了高质量的(de)(de)(de)底层模型，而且(qie)个(ge)个(ge)公开(kai)可用甚至免费，给至今仍是期(qi)货的(de)(de)(de)Sora上了一课(ke)。

国产成人亚洲精品狼色在线,亚洲成色www久久网站,强制高潮(h)调教,大伊香蕉在线精品视频75,日本无码少妇成人久久丫

一、半分钟生成6秒视频，复杂指令、内容连贯

二、实测上手有惊艳也有翻车，付费加速有些鸡肋

三、自研端到端视频模型，首个API同步上线

结语：又一强力玩家入局AI视频生成

相关推荐