智东西(公众号:zhidxcom)
编译 | 杨蕊伃
编辑 | 漠影
智东西(xi)10月11日消息(xi),据VentureBeat报道,北京(jing)大学、北京(jing)邮电大学和快(kuai)手科技在本周联(lian)合(he)开(kai)源(yuan)了(le)一款(kuan)名(ming)为(wei)Pyramid Flow的(de)高清(qing)视(shi)频生(sheng)成模型。Pyramid Flow能根据文本描(miao)述(shu)制作(zuo)长达10秒(miao)、分辨(bian)率为(wei)1280×768、每秒(miao)24帧的(de)视(shi)频。
Pyramid Flow采用了(le)金字塔流匹配算(suan)法,优化了(le)视(shi)频生成(cheng)的效率和质量。这一算(suan)法将视(shi)频生成(cheng)过(guo)程分解为多个阶(jie)段(duan),每个阶(jie)段(duan)对应(ying)着不同的分辨(bian)率。
在(zai)推理阶段,Pyramid Flow模型能够以相当(dang)快的(de)速度生成视频。具体来说(shuo),它可(ke)以在(zai)56秒内(nei)生成一(yi)段时长为5秒、分辨率为384p的(de)视频,这一(yi)速度与市面上许多全序列扩散模型相当(dang),甚至更(geng)快。
目(mu)前,该项目(mu)已经(jing)在Hugging Face和GitHub上(shang)开(kai)源(yuan)。
开源地址:
1、
2、
一、金字塔流匹配算法:高质量AI视频新技术,逐层提高分辨率
文生(sheng)视频领域有一个非常(chang)难(nan)的(de)技术挑战,就是(shi)如何有效地处理和生(sheng)成(cheng)高维(wei)度的(de)视频数据。
针对这一技(ji)术挑战,Pyramid Flow研(yan)发(fa)团队提出了(le)金字塔流匹配算法。
金(jin)字(zi)塔流匹配(pei)算法(fa)的核(he)心思想是将视(shi)频(pin)生成(cheng)过程分解(jie)为多个阶(jie)段来有效处理高维(wei)度(du)的视(shi)频(pin)数据。这(zhei)些阶(jie)段从(cong)低分辨(bian)率(lv)开始(shi),逐步升级到高分辨(bian)率(lv),从(cong)而逐步提升视(shi)频(pin)的清晰度(du)。
这个过程(cheng)就像(xiang)是(shi)先(xian)画(hua)(hua)一(yi)个简单的(de)草图,然后(hou)一(yi)点点地(di)加上颜色和细(xi)节,直到画(hua)(hua)出一(yi)幅完整的(de)画(hua)(hua)。

▲金字塔流匹配(pei)算法:视频的(de)(de)生成是在不同(tong)的(de)(de)分辨率层次上逐(zhu)步进(jin)行的(de)(de)(图源:arxiv论(lun)文截图)
二、开源数据集训练,Pyramid Flow生成5-10秒高清视频
Pyramid Flow模(mo)型通(tong)过分阶段的方式生成视频(pin),大大减少(shao)了计(ji)算成本。
▲Pyramid Flow生成的视频展示(shi)(图(tu)源:Pyramid Flow官网)
与传统的扩散(san)模(mo)型相比(bi),Pyramid Flow的金字塔流匹配算(suan)法(fa)将token数量减少了4倍(bei)。
▲Pyramid Flow生成的视频展示(图源:Pyramid Flow官(guan)网)
据(ju)官网介绍,该(gai)模型可(ke)以在768p分辨率(lv)和每秒24帧的(de)(de)条件(jian)下生成5至10秒的(de)(de)视(shi)频,并(bing)且(qie)是基于开(kai)源数(shu)据(ju)集进行训练的(de)(de)。
▲Pyramid Flow生成的视频展示(图源:Pyramid Flow官网)
具体来(lai)说,Pyramid Flow在(zai)训练时(shi)用到(dao)的数(shu)据集包括LAION-5B、CC-12M、SA-1B以(yi)及WebVid-10M和OpenVid-1M等。
1、LAION-5B:一个用于(yu)多模态AI研究的大型(xing)数据集。
2、CC-12M:一(yi)个由(you)网络爬虫收集的(de)图像文本对的(de)数据集。
3、SA-1B:具有高质量、无模糊图像的数据集。
4、WebVid-10M和(he)OpenVid-1M:两个(ge)被广泛用于(yu)文本到视频生成的视频数据集。
三、宽松许可,Pyramid Flow开源商业用途,轻松实现视频微调
Pyramid Flow是开源的AI视频生成(cheng)工具(ju),它允许用户用在商业项目(mu)里,但须保(bao)留版权声明。
▲Pyramid Flow生成的(de)视频展示(图(tu)源:Pyramid Flow官网)
通(tong)过使(shi)用(yong)Pyramid Flow,用(yong)户(hu)可以(yi)免费调(diao)整视频(pin)细节,这(zhei)项功(gong)能对于电影制片厂来说很有吸(xi)引(yin)力。
电影制片厂可以(yi)通过使用(yong)Pyramid Flow来提高视频制作效率、降低视频制作成本,并探索新的视频创(chuang)意工具。
不过,要想(xiang)充分利(li)用好这一(yi)模(mo)型,电影制片厂还(hai)需要具备一(yi)定的(de)开发人才和计(ji)算资源。
目前,Pyramid Flow缺乏像Runway Gen-3 Alpha这(zhei)样(yang)的模(mo)型所具备的一些高级(ji)微调功能,比(bi)如精确(que)控制摄像机角(jiao)度、关键(jian)帧和人体姿态等电影元素。
▲Pyramid Flow生成的(de)视频展(zhan)示(图源(yuan):Pyramid Flow官(guan)网(wang))
▲Pyramid Flow生成的视频展(zhan)示(图源:Pyramid Flow官网)
▲Pyramid Flow生成(cheng)的视频(pin)展示(图源:Pyramid Flow官网)
来(lai)源:VentureBeat、Pyramid Flow官网、arxiv