智东西(公众号:zhidxcom)
作者 | 陈骏达
编辑 | 心缘
智东西4月15日报道,就在刚刚,可灵AI面向全球正式发布可灵2.0视频生成模型及可图2.0图像生成模型,继续大幅领先业内前沿模型。可灵2.0在文生视频领域较OpenAI Sora实现367%的胜负比,在图生视频领域较谷歌Veo2实现了182%的胜负比。

与可灵1.6相比,可灵2.0模型在动(dong)态质量(liang)、语(yu)义响应、画面美学等维(wei)度(du)有明(ming)显(xian)进步。在下方案例中,可灵2.0准确(que)呈现了日光从清晨到(dao)正午(wu)再(zai)到(dao)傍(bang)晚的(de)变化,还使用了延时摄影的(de)风格。

▲右侧为可灵2.0
可图2.0模型在指令遵循、电影质感及艺术风格表现等方面显著提升,色彩和光影更为高级,情绪表达更具感染力,并新增了60余(yu)种风格化效果。

在本次2.0模型迭代中,可灵AI还正式发布AI视频生成的全(quan)新交互理念Multi-modal Visual Language(MVL),让用户能(neng)够利用图像(xiang)(xiang)参考、视频(pin)片段(duan)等多(duo)模(mo)态信息(xi),将(jiang)脑海(hai)中的(de)复杂创意(yi)直接(jie)高效地传达(da)给AI,或(huo)是对视频(pin)、图像(xiang)(xiang)等多(duo)模(mo)内容进行(xing)编辑。
用户可以(yi)(yi)将视频、图片等(deng)作为元(yuan)(yuan)素上(shang)传,并直接将其嵌(qian)入至提(ti)示(shi)词中。这些元(yuan)(yuan)素能在画面内以(yi)(yi)合乎逻辑(ji)的(de)方式组合,进一步提(ti)升画面的(de)可控(kong)性(xing)。

可(ke)灵(ling)2.0系列模型发布即上线,用户现在(zai)已经可(ke)以在(zai)可(ke)灵(ling)AI官网和App内免费体验(yan)其生成(cheng)效果。
体验链接:
//klingai.com/cn/
一、告别慢动作画面,可灵2.0语义响应、动态质量与美学全面升级
快手高级副总裁、社区科学线负责人盖坤介绍,自去年6月发布以来,可灵AI已累计完成超20次迭代。截至目前,可灵AI全球用户规模突破2200万,过去的10个月里,其月活用户量增长25倍,累计生成超过1.68亿个视频(pin)及3.44亿张图片。

然而,现有(you)的视频生成(cheng)模型仍存在(zai)语义遵循能力差、动态质量不佳(jia)等问(wen)题(ti),妨碍了创作(zuo)者(zhe)表达、控制(zhi)生成(cheng)结果的能力。可灵AI全系(xi)模型进行的本次升级,正是(shi)为(wei)了解决这(zhei)些问(wen)题(ti)。
据快手副总裁、可灵AI负责人张迪介绍,可灵2.0的升级主要有三方面:语义响应、动态质量与画面美学。
升级后的可灵2.0可以更准确地反映人物表情、动作的变化,动(dong)作(zuo)的丰(feng)富(fu)度、真实性有明显提(ti)升(sheng)。在下方(fang)案例中(zhong),可灵(ling)(ling)2.0为准确描绘了提示词中(zhong)“手锤桌子起身”的效果,而(er)可灵(ling)(ling)1.6并(bing)没有完全还原。

可灵2.0也告别了视频生成模型的通病——运动速度不合理。在下方马飞速奔驰的画面中,可灵2.0的生成(cheng)结果不再是慢动作,镜头表现更加真(zhen)实。可灵团队还对其生(sheng)成(cheng)画面的复杂动(dong)作、动(dong)作幅(fu)度进行优化。

生成大片感的(de)(de)画(hua)(hua)面对可(ke)灵2.0来说(shuo)也(ye)不是(shi)问题。下(xia)方这一画(hua)(hua)面中(zhong),无论是(shi)人物(wu)奔(ben)跑(pao)的(de)(de)动作,还是(shi)后(hou)方爆(bao)炸的(de)(de)效果,都(dou)十分逼真,角(jiao)色演绎生动。

可灵2.0对时(shi)间(jian)的(de)理解能力提升,能帮助创作者(zhe)生成更(geng)连贯、更(geng)具有故(gu)事性(xing)、延续性(xing)的(de)画(hua)面。
图(tu)像生成模型(xing)可(ke)图(tu)2.0的升级同样是(shi)在(zai)指令遵循(xun)方(fang)面(mian)。下方(fang)这一案例(li)的提示(shi)词中具有“伺服电机(ji)”、“机(ji)械女神”、“壁(bi)画”、“拉斐尔《雅典学院》的古(gu)典平衡感”等诸多要(yao)素,可(ke)图(tu)2.0的生成结(jie)果很好地还原了相关(guan)要(yao)素,

可图(tu)(tu)2.0能更(geng)(geng)好地展现(xian)提(ti)示词中对(dui)于色彩、光影的(de)表述,对(dui)人物情绪(xu)的(de)呈现(xian)更(geng)(geng)具(ju)感染力。下方4张图(tu)(tu)片均为可图(tu)(tu)2.0的(de)生(sheng)成结果,若未经提(ti)示,或许许多人都(dou)会(hui)认(ren)为这是某部电(dian)影的(de)截图(tu)(tu)。

二、打造人与AI交互全新语言,画面元素定制化更容易了
张迪在发(fa)布会(hui)现场分享(xiang)了可灵2.0和可图(tu)2.0能力升级背后的技术创(chuang)新(xin)。
可(ke)灵(ling)团队为(wei)可(ke)灵(ling)2.0采用了(le)全(quan)(quan)新(xin)设计(ji)的(de)DiT架构(gou),这提(ti)升了(le)其(qi)视(shi)觉(jue)、文本模态的(de)信息融(rong)合能力。全(quan)(quan)新(xin)设计(ji)的(de)VAE架构(gou)则使复杂动态场景下(xia)画面的(de)过度(du)更(geng)顺畅,质感更(geng)自然。同时,可(ke)灵(ling)团队还(hai)首次系统性研究了(le)视(shi)频生成DiT架构(gou)的(de)Scaling Law特性。

在(zai)(zai)模(mo)型训(xun)练(lian)、推理策略方面,可灵2.0在(zai)(zai)后训(xun)练(lian)阶段利用(yong)了强化学习(xi)技术(shu)(shu),这提升了其对复(fu)杂运动场(chang)景、主体交(jiao)互的(de)生成能力,也强化对运镜语(yu)(yu)言、构图术(shu)(shu)语(yu)(yu)等(deng)专业(ye)表达(da)的(de)理解(jie)与(yu)响应能力。

张迪透露,目前可灵平台上高达85%的视频(pin)生成(cheng)任务为图(tu)生视频(pin)任务。由此看来,更(geng)强的(de)生图能力也成为创作者所需工(gong)具。
此次(ci)可图2.0的技术创新(xin)包括全(quan)新(xin)升(sheng)级(ji)的文本表征(zheng)处(chu)理链路、全(quan)面升(sheng)级(ji)的数(shu)据体系和多样性以及全(quan)新(xin)的提示(shi)词工程(cheng)和去噪策略。
升(sheng)级后的(de)可图(tu)(tu)2.0会深度思考用户的(de)提(ti)示词(ci),其逐步自适应(ying)的(de)Diffusion去噪(zao)策略(lve),可以(yi)优(you)化(hua)出图(tu)(tu)细节,提(ti)升(sheng)图(tu)(tu)像质(zhi)量。
面向视觉创作者,可灵还推出了视频、图像多模态编辑能力,这些能力基于可灵提出的视觉生成交互理念Multi-modal Visual Language(MVL)。
盖坤介绍,可(ke)灵团队发现,文(wen)字不足(zu)以向模(mo)(mo)型准确描述复杂动作、复杂表情等内容,可(ke)灵希望定义一(yi)种人与AI交(jiao)互的全新语(yu)言(yan),让模(mo)(mo)型能更好地理(li)解(jie)人的想象(xiang)力。
利用MVL技术,创作者可以(yi)利用视频、图像、文字等(deng)(deng)多模态(tai)信息,定义(yi)画(hua)面(mian)(mian)内人(ren)物的长相、着(zhe)装、表(biao)情以(yi)及画(hua)面(mian)(mian)背景等(deng)(deng)。

在这一过程中,文本扮演了语义骨架的作用,多(duo)模(mo)态描述子(MMW)能嵌入这一(yi)骨架(jia),扩展描(miao)(miao)述(shu)的(de)完备性、准确性。未来(lai),可灵还(hai)计划(hua)支持文(wen)本+MMW动(dong)作描(miao)(miao)述(shu)文(wen)件(jian),画面(mian)角色的(de)运动(dong)轨迹也能完全可控。

结语:基础大模型+创作工具全栈升级,快手要打造全球第一AI视频应用
本次(ci)可灵AI 2.0的(de)(de)升级,不仅包括基础(chu)大模型的(de)(de)能(neng)力(li)提升,还有面向创作(zuo)者(zhe)日常生产(chan)流程的(de)(de)全栈工具优化(hua),盖(gai)坤(kun)称,可灵AI的(de)(de)愿景是“让每(mei)个人都(dou)能(neng)用AI讲出好故(gu)事”。
日前,在(zai)(zai)快(kuai)手(shou)(shou)2025财年电话会议上,快(kuai)手(shou)(shou)集团(tuan)高管也分享了类似的观点,快(kuai)手(shou)(shou)认为AI对其发展至关重要,将给予坚定、长期的投入,可灵会在(zai)(zai)技术升级的同时,进行(xing)全(quan)球(qiu)市场(chang)和品牌(pai)运营(ying)活动。快(kuai)手(shou)(shou)的目标是(shi),将可灵打(da)造(zao)为营(ying)收规模世界第一的AI视(shi)频应用。