力压OpenAI谷歌，快手掏出最强视频大模型，可灵2.0一句话搞定特效

智东西（公众号：zhidxcom）
作者 | 陈骏达
编辑 | 心缘

智东西4月15日报道，就在刚刚，可灵AI面向全球正式发布可灵2.0视频生成模型及可图2.0图像生成模型，继续大幅领先业内前沿模型。可灵2.0在文生视频领域较OpenAI Sora实现367%的胜负比，在图生视频领域较谷歌Veo2实现了182%的胜负比。

与可灵1.6相比，可灵2.0模型在动(dong)态质量(liang)、语(yu)义响应、画面美学等维(wei)度(du)有明(ming)显(xian)进步。在下方案例中，可灵2.0准确(que)呈现了日光从清晨到(dao)正午(wu)再(zai)到(dao)傍(bang)晚的(de)变化，还使用了延时摄影的(de)风格。

力压OpenAI谷歌，快手掏出最强视频大模型，可灵2.0一句话搞定特效

▲右侧为可灵2.0

可图2.0模型在指令遵循、电影质感及艺术风格表现等方面显著提升，色彩和光影更为高级，情绪表达更具感染力，并新增了60余(yu)种风格化效果。

力压OpenAI谷歌，快手掏出最强视频大模型，可灵2.0一句话搞定特效

在本次2.0模型迭代中，可灵AI还正式发布AI视频生成的全(quan)新交互理念Multi-modal Visual Language（MVL），让用户能(neng)够利用图像(xiang)(xiang)参考、视频(pin)片段(duan)等多(duo)模(mo)态信息(xi)，将(jiang)脑海(hai)中的(de)复杂创意(yi)直接(jie)高效地传达(da)给AI，或(huo)是对视频(pin)、图像(xiang)(xiang)等多(duo)模(mo)内容进行(xing)编辑。

用户可以(yi)(yi)将视频、图片等(deng)作为元(yuan)(yuan)素上(shang)传，并直接将其嵌(qian)入至提(ti)示(shi)词中。这些元(yuan)(yuan)素能在画面内以(yi)(yi)合乎逻辑(ji)的(de)方式组合，进一步提(ti)升画面的(de)可控(kong)性(xing)。

力压OpenAI谷歌，快手掏出最强视频大模型，可灵2.0一句话搞定特效

可(ke)灵(ling)2.0系列模型发布即上线，用户现在(zai)已经可(ke)以在(zai)可(ke)灵(ling)AI官网和App内免费体验(yan)其生成(cheng)效果。

体验链接：

//klingai.com/cn/

一、告别慢动作画面，可灵2.0语义响应、动态质量与美学全面升级

快手高级副总裁、社区科学线负责人盖坤介绍，自去年6月发布以来，可灵AI已累计完成超20次迭代。截至目前，可灵AI全球用户规模突破2200万，过去的10个月里，其月活用户量增长25倍，累计生成超过1.68亿个视频(pin)及3.44亿张图片。

力压OpenAI谷歌，快手掏出最强视频大模型，可灵2.0一句话搞定特效

然而，现有(you)的视频生成(cheng)模型仍存在(zai)语义遵循能力差、动态质量不佳(jia)等问(wen)题(ti)，妨碍了创作(zuo)者(zhe)表达、控制(zhi)生成(cheng)结果的能力。可灵AI全系(xi)模型进行的本次升级，正是(shi)为(wei)了解决这(zhei)些问(wen)题(ti)。

据快手副总裁、可灵AI负责人张迪介绍，可灵2.0的升级主要有三方面：语义响应、动态质量与画面美学。

升级后的可灵2.0可以更准确地反映人物表情、动作的变化，动(dong)作(zuo)的丰(feng)富(fu)度、真实性有明显提(ti)升(sheng)。在下方(fang)案例中(zhong)，可灵(ling)(ling)2.0为准确描绘了提示词中(zhong)“手锤桌子起身”的效果，而(er)可灵(ling)(ling)1.6并(bing)没有完全还原。

力压OpenAI谷歌，快手掏出最强视频大模型，可灵2.0一句话搞定特效

可灵2.0也告别了视频生成模型的通病——运动速度不合理。在下方马飞速奔驰的画面中，可灵2.0的生成(cheng)结果不再是慢动作，镜头表现更加真(zhen)实。可灵团队还对其生(sheng)成(cheng)画面的复杂动(dong)作、动(dong)作幅(fu)度进行优化。

力压OpenAI谷歌，快手掏出最强视频大模型，可灵2.0一句话搞定特效

生成大片感的(de)(de)画(hua)(hua)面对可(ke)灵2.0来说(shuo)也(ye)不是(shi)问题。下(xia)方这一画(hua)(hua)面中(zhong)，无论是(shi)人物(wu)奔(ben)跑(pao)的(de)(de)动作，还是(shi)后(hou)方爆(bao)炸的(de)(de)效果，都(dou)十分逼真，角(jiao)色演绎生动。

力压OpenAI谷歌，快手掏出最强视频大模型，可灵2.0一句话搞定特效

可灵2.0对时(shi)间(jian)的(de)理解能力提升，能帮助创作者(zhe)生成更(geng)连贯、更(geng)具有故(gu)事性(xing)、延续性(xing)的(de)画(hua)面。

图(tu)像生成模型(xing)可(ke)图(tu)2.0的升级同样是(shi)在(zai)指令遵循(xun)方(fang)面(mian)。下方(fang)这一案例(li)的提示(shi)词中具有“伺服电机(ji)”、“机(ji)械女神”、“壁(bi)画”、“拉斐尔《雅典学院》的古(gu)典平衡感”等诸多要(yao)素，可(ke)图(tu)2.0的生成结(jie)果很好地还原了相关(guan)要(yao)素，

力压OpenAI谷歌，快手掏出最强视频大模型，可灵2.0一句话搞定特效

可图(tu)(tu)2.0能更(geng)(geng)好地展现(xian)提(ti)示词中对(dui)于色彩、光影的(de)表述，对(dui)人物情绪(xu)的(de)呈现(xian)更(geng)(geng)具(ju)感染力。下方4张图(tu)(tu)片均为可图(tu)(tu)2.0的(de)生(sheng)成结果，若未经提(ti)示，或许许多人都(dou)会(hui)认(ren)为这是某部电(dian)影的(de)截图(tu)(tu)。

力压OpenAI谷歌，快手掏出最强视频大模型，可灵2.0一句话搞定特效

二、打造人与AI交互全新语言，画面元素定制化更容易了

张迪在发(fa)布会(hui)现场分享(xiang)了可灵2.0和可图(tu)2.0能力升级背后的技术创(chuang)新(xin)。

可(ke)灵(ling)团队为(wei)可(ke)灵(ling)2.0采用了(le)全(quan)(quan)新(xin)设计(ji)的(de)DiT架构(gou)，这提(ti)升了(le)其(qi)视(shi)觉(jue)、文本模态的(de)信息融(rong)合能力。全(quan)(quan)新(xin)设计(ji)的(de)VAE架构(gou)则使复杂动态场景下(xia)画面的(de)过度(du)更(geng)顺畅，质感更(geng)自然。同时，可(ke)灵(ling)团队还(hai)首次系统性研究了(le)视(shi)频生成DiT架构(gou)的(de)Scaling Law特性。

力压OpenAI谷歌，快手掏出最强视频大模型，可灵2.0一句话搞定特效

在(zai)(zai)模(mo)型训(xun)练(lian)、推理策略方面，可灵2.0在(zai)(zai)后训(xun)练(lian)阶段利用(yong)了强化学习(xi)技术(shu)(shu)，这提升了其对复(fu)杂运动场(chang)景、主体交(jiao)互的(de)生成能力，也强化对运镜语(yu)(yu)言、构图术(shu)(shu)语(yu)(yu)等(deng)专业(ye)表达(da)的(de)理解(jie)与(yu)响应能力。

力压OpenAI谷歌，快手掏出最强视频大模型，可灵2.0一句话搞定特效

张迪透露，目前可灵平台上高达85%的视频(pin)生成(cheng)任务为图(tu)生视频(pin)任务。由此看来，更(geng)强的(de)生图能力也成为创作者所需工(gong)具。

此次(ci)可图2.0的技术创新(xin)包括全(quan)新(xin)升(sheng)级(ji)的文本表征(zheng)处(chu)理链路、全(quan)面升(sheng)级(ji)的数(shu)据体系和多样性以及全(quan)新(xin)的提示(shi)词工程(cheng)和去噪策略。

升(sheng)级后的(de)可图(tu)(tu)2.0会深度思考用户的(de)提(ti)示词(ci)，其逐步自适应(ying)的(de)Diffusion去噪(zao)策略(lve)，可以(yi)优(you)化(hua)出图(tu)(tu)细节，提(ti)升(sheng)图(tu)(tu)像质(zhi)量。

面向视觉创作者，可灵还推出了视频、图像多模态编辑能力，这些能力基于可灵提出的视觉生成交互理念Multi-modal Visual Language（MVL）。

盖坤介绍，可(ke)灵团队发现，文(wen)字不足(zu)以向模(mo)(mo)型准确描述复杂动作、复杂表情等内容，可(ke)灵希望定义一(yi)种人与AI交(jiao)互的全新语(yu)言(yan)，让模(mo)(mo)型能更好地理(li)解(jie)人的想象(xiang)力。

利用MVL技术，创作者可以(yi)利用视频、图像、文字等(deng)(deng)多模态(tai)信息，定义(yi)画(hua)面(mian)(mian)内人(ren)物的长相、着(zhe)装、表(biao)情以(yi)及画(hua)面(mian)(mian)背景等(deng)(deng)。

力压OpenAI谷歌，快手掏出最强视频大模型，可灵2.0一句话搞定特效

在这一过程中，文本扮演了语义骨架的作用，多(duo)模(mo)态描述子（MMW）能嵌入这一(yi)骨架(jia)，扩展描(miao)(miao)述(shu)的(de)完备性、准确性。未来(lai)，可灵还(hai)计划(hua)支持文(wen)本+MMW动(dong)作描(miao)(miao)述(shu)文(wen)件(jian)，画面(mian)角色的(de)运动(dong)轨迹也能完全可控。

力压OpenAI谷歌，快手掏出最强视频大模型，可灵2.0一句话搞定特效

结语：基础大模型+创作工具全栈升级，快手要打造全球第一AI视频应用

本次(ci)可灵AI 2.0的(de)(de)升级，不仅包括基础(chu)大模型的(de)(de)能(neng)力(li)提升，还有面向创作(zuo)者(zhe)日常生产(chan)流程的(de)(de)全栈工具优化(hua)，盖(gai)坤(kun)称，可灵AI的(de)(de)愿景是“让每(mei)个人都(dou)能(neng)用AI讲出好故(gu)事”。

日前，在(zai)(zai)快(kuai)手(shou)(shou)2025财年电话会议上，快(kuai)手(shou)(shou)集团(tuan)高管也分享了类似的观点，快(kuai)手(shou)(shou)认为AI对其发展至关重要，将给予坚定、长期的投入，可灵会在(zai)(zai)技术升级的同时，进行(xing)全(quan)球(qiu)市场(chang)和品牌(pai)运营(ying)活动。快(kuai)手(shou)(shou)的目标是(shi)，将可灵打(da)造(zao)为营(ying)收规模世界第一的AI视(shi)频应用。

国产成人亚洲精品狼色在线,亚洲成色www久久网站,强制高潮(h)调教,大伊香蕉在线精品视频75,日本无码少妇成人久久丫

一、告别慢动作画面，可灵2.0语义响应、动态质量与美学全面升级

二、打造人与AI交互全新语言，画面元素定制化更容易了

结语：基础大模型+创作工具全栈升级，快手要打造全球第一AI视频应用

相关推荐