智东西(公众号:zhidxcom)
作者 | 李水青
编辑 | 心缘

智东西9月4日报道,9月3日,快手开源最新多模态大模型Keye-VL-1.5。该模型拥有80亿个参数,支持128k tokens扩展上下文,在视频理解、图像理解推理方面能力出色。

AI边刷视频边思考!快手最新多模态大模型开源,80亿参数,实测推理超快

▲Keye-VL-1.5开源地址截图

在Video-MME、Video-MMMU、TempCompass等一系列权威的公共视频基准测试中,Keye-VL-1.5在同等规模模型中取得了SOTA(最佳表现),赶超阿里Qwen2.5-VL 8B、小米MiMo-VL 7B-RL等同等规模优秀模型;在WeMath、MathVerse等需要复杂逻辑推理和数学问题解决的评(ping)估集(ji)上,Keye-VL-1.5-8B也展(zhan)现出较强性能(neng)。

AI边刷视频边思考!快手最新多模态大模型开源,80亿参数,实测推理超快

▲Keye-VL-1.5测评情况一(yi)览

据悉,相比于只会识别标签和片段的传统模型,Keye-VL-1.5能捕捉视频中的细节与时间逻辑,实现对长视频与复杂语义的深度理解。这一模型可用于视频推荐、创作、互动以及内容审核和商业化全链条

这意味着,从自动(dong)生成(cheng)吸睛标题,到(dao)智能(neng)剪辑(ji)精(jing)彩片段,再(zai)到(dao)实时互动(dong)解说,Keye-VL-1.5或(huo)许能(neng)为短(duan)视(shi)频生态注(zhu)入了前所(suo)未有的(de)可(ke)能(neng)性(xing)。

智东西对这一模型进行一手体验后发现,Keye-VL-1.5在图像理解和逻辑推理上效果较好,且速度较快10秒左右可完成针对数分钟视频内容的处理。值得一提的是,在近日广受关注的AI生成内容的识别上,Keye-VL-1.5表现出了较高的准确率

同时,在体验中,Keye-VL-1.5暂时无法完成音频理解、图像/视频创作等任务,且在数学及推理、语言生成的精妙性方面仍有进步空间。

AI边刷视频边思考!快手最新多模态大模型开源,80亿参数,实测推理超快
▲Keye-VL-1.5技(ji)术报告(gao)截图

技术报告地址:
//arxiv.org/pdf/2509.01563
Hugging Face地址:
//huggingface.co/Kwai-Keye/Keye-VL-1_5-8B
体验地址:
//huggingface.co/spaces/Kwai-Keye/Keye-VL-1_5-8B

一、能看懂视频,懂逻辑推理,胜任AI生成内容识别

首先,智(zhi)东西用(yong)近日广(guang)受关注的(de)AI生(sheng)成内(nei)容识(shi)别任(ren)务来测试Keye-VL-1.5。随着《人工智(zhi)能(neng)生(sheng)成合成内(nei)容标识(shi)办法》,AI生(sheng)成合成内(nei)容的(de)审核管理工作(zuo)量随之变大。

当智东西上传了一个实拍的熊猫视频,输入提示词:“这个视频是AI生成的吗?”。如下图所示,Keye-VL-1.5采用非思考模型,在几秒见即给出“不是”的正确答案。

AI边刷视频边思考!快手最新多模态大模型开源,80亿参数,实测推理超快

AI边刷视频边思考!快手最新多模态大模型开源,80亿参数,实测推理超快

我们增加难度,上传一个男士拿着猫罐头的视频,输入提示词:“这个视频是AI生成的吗?有没有广告推销?”如下图所示,这次Keye-VL-1.5自己选择了深度思考模式,经过近10秒钟的思考后,输出了正确答案:“是,该视频可能是AI生成的,并且有广告推销(猫粮)。”

AI边刷视频边思考!快手最新多模态大模型开源,80亿参数,实测推理超快 AI边刷视频边思考!快手最新多模态大模型开源,80亿参数,实测推理超快 AI边刷视频边思考!快手最新多模态大模型开源,80亿参数,实测推理超快

接下来,我们上传了一个荷花池的风景视频,要求Keye-VL-1.5“根据视频创作一首七言绝句”,如下图所示,这对Keye-VL-1.5几乎没有难度,生成诗句:“夏日池塘荷叶绿,粉苞初放映晴天。蜻蜓点水惊飞蝶,清香浮动入诗篇。”诗句全面覆盖了视频中的景物,并且创作了了“蜻蜓点水惊飞蝶”全新意象,还联想到了“清香浮动”嗅觉感受,可见其兼具图像理解和逻辑推理能力,但在语言生成的精妙性方面仍有进步空间。

AI边刷视频边思考!快手最新多模态大模型开源,80亿参数,实测推理超快AI边刷视频边思考!快手最新多模态大模型开源,80亿参数,实测推理超快AI边刷视频边思考!快手最新多模态大模型开源,80亿参数,实测推理超快

我们上传了关于两只猫相处的视频,要求Keye-VL-1.5“对这个视频进行剪辑,剪去两只猫停顿部分,保留动态部分,7秒左右”。但Keye-VL-1.5目前无法执行视频剪辑和生成的动作,而(er)是给出了应该删去和保(bao)留(liu)哪些视频帧。

AI边刷视频边思考!快手最新多模态大模型开源,80亿参数,实测推理超快

AI边刷视频边思考!快手最新多模态大模型开源,80亿参数,实测推理超快

AI边刷视频边思考!快手最新多模态大模型开源,80亿参数,实测推理超快

当我们上传了一个男孩和女孩走在校园跑道上的照片,输入提示词:“视频中出现了几个人?他们可能多大岁数,是什么关系?”,Keye-VL-1.5很快给出准确答案:“2个人,年龄约16-22岁,可能是情侣、好友或同学关系。”可见Keye-VL-1.5在逻辑推(tui)理上有一定的能力。

AI边刷视频边思考!快手最新多模态大模型开源,80亿参数,实测推理超快

AI边刷视频边思考!快手最新多模态大模型开源,80亿参数,实测推理超快

我们上传了一个关于女性宣言合集视频,问Keye-VL-1.5:“视频中出现了几个女孩?她们在谈论什么话题,有什么意义?”这次Keye-VL-1.5误把前两个黑色头发女孩识别为了同一个,且没有识别出音频,所以无(wu)法总结出话题主题。从思考过(guo)程可知,Keye-VL-1.5差一点(dian)成功确(que)认视频中出现(xian)了三个女孩(hai),但最终却因误以为(wei)第一、二个女孩(hai)为(wei)同一人,而没有(you)得(de)到(dao)正确(que)答案(an)。

AI边刷视频边思考!快手最新多模态大模型开源,80亿参数,实测推理超快AI边刷视频边思考!快手最新多模态大模型开源,80亿参数,实测推理超快

AI边刷视频边思考!快手最新多模态大模型开源,80亿参数,实测推理超快

AI边刷视频边思考!快手最新多模态大模型开源,80亿参数,实测推理超快

根据Keye-VL-1.5自己的官方回复:“目前,我作为基于文本的AI模型,无法直接处理视频中的声音内容。我的能力主要集中在文本分析、图像描述和逻辑推理上。”

二、拿下同规模通用视觉-语言测试SOTA,能理解视频、看懂逻辑

看(kan)完(wan)实(shi)测(ce),再(zai)来看(kan)看(kan)Keye-VL-1.5的(de)(de)基准测(ce)试情况。通(tong)过在(zai)公开基准上(shang)的(de)(de)评估(gu)和(he)内部(bu)人(ren)工评估(gu),Keye-VL-1.5相较(jiao)于现(xian)有模型表现(xian)出显(xian)著的(de)(de)改进(jin),尤其在(zai)视(shi)频理解任务中表现(xian)出色,同时在(zai)通(tong)用视(shi)觉-语言任务上(shang)也保持了较(jiao)好性能。

在通用视觉-语言任务上,Keye-VL-1.5在大多数基(ji)准(zhun)测试中展(zhan)现出具有竞争力的性能,常常取得最先进(jin)(SOTA)或接近最先进(jin)的结果,总体上优于其他模型(xing)。

在大规模通用基准测试OpenCompass、MMMU-val、AI2D等测试中,Keye-VL-1.5分别获得79.5%、71.4%和86.7%的分数,超过了所有其他模型。

在MMBench和MMStar上,Keye-VL-1.5也取得了最佳性能。在数学推理任务中,Keye-VL-1.5显著优于Qwen2.5-VL 8B和InternVL3-8B,其(qi)结果与小米的MiMo-VL 7B-RL相当。

在以视频为中心的场景中,对视频内容的(de)准确理解(jie)是(shi)(shi)Keye-VL-1.5的(de)核心优势。在公开的(de)视频基准测试中,Keye-VL-1.5显著优于其他模型,尤其是(shi)(shi)在Video-MMMU上(shang),绝对提升了6.5%。

AI边刷视频边思考!快手最新多模态大模型开源,80亿参数,实测推理超快

▲Keye-VL-1.5(思考模式(shi))与Keye-VL-Preview及(ji)其他模型在多视(shi)觉(jue)-语言基准测试中的(de)比较

由(you)于公(gong)开基准(zhun)任务覆盖有限(xian)、存在(zai)过于简(jian)单的问题形式、潜在(zai)数据污染风险等问题,快手还对Keye-VL-1.5进(jin)行了(le)内(nei)部基准(zhun)测试。

如下表所示,Keye-VL-1.5-8B以3.53的整体综合得分大幅领先,较Keye-VL-Preview显著提升了0.51。该模型在提供准确且全面的响应方面能力的增强,且响应与用户查询的匹配度有所改善。与MiMoVL-7B-RL-2508对比,Keye-VL-1.5-8B在综合性能上确立了0.13的优势,且在准确性方面表现尤为突出(+0.19)。虽然快手的模型在事实准确性上更胜一筹,但在语言生成的精妙性方面仍面临挑战

AI边刷视频边思考!快手最新多模态大模型开源,80亿参数,实测推理超快

▲Keye-VL-1.5-8B以3.53的整体综合得分大幅领先(xian)

详细的能力分析揭示了特定领域的优势和优化重点:下表中的细粒度评估显示,Keye-VL-1.5-8B在推理能力(3.81)、时间信息理解(3.36)和稳健性(4.29)方面具有显著优势;在视觉元素识别(3.49)和创造能力(3.66)上(shang)与MiMoVL-7B-RL-2508相当。

AI边刷视频边思考!快手最新多模态大模型开源,80亿参数,实测推理超快

▲Keye-VL-1.5-8B详细的(de)能力(li)分析

三、三项关键创新,破解视频理解挑战

近年来,多模态大语言(yan)模型(xing)加速发展,然而由于视(shi)频具有动(dong)态性和信息密集性的(de)特点,视(shi)频理解仍然是一个具有挑战性的(de)领域。

现有模型在处(chu)理视频(pin)内(nei)(nei)容时(shi),难以在空间(jian)分辨(bian)率(lv)和时(shi)间(jian)覆盖范围(wei)之间(jian)取得平(ping)衡。现有方法通常在固定分辨(bian)率(lv)约束下采用均匀帧(zhen)采样,这在内(nei)(nei)容理解(jie)需要(yao)细(xi)粒度视觉细(xi)节和时(shi)间(jian)一致(zhi)性时(shi),会导致(zhi)性能欠(qian)佳。

为了解决这些局限性,快手推出了拥有80亿参数的多模态基础模型Keye-VL-1.5,它通过三项关键创新解决了视频理解中的基本挑(tiao)战:

1、高效多模态处理的架构创新:慢-快视频编码策略,解决时空权衡问题

首(shou)先,快手引入了一种新颖(ying)的(de)慢(man)-快视频编码策略,该策略基于(yu)帧(zhen)间相似(si)度动态分(fen)配计算资源,对(dui)具有显著视觉变(bian)化的(de)关(guan)键帧(zhen)采用更高分(fen)辨率(lv)处理(慢(man)速路径(jing)),而对(dui)相对(dui)静态的(de)帧(zhen)则以更低分(fen)辨率(lv)增加时间覆盖范围(快速路径(jing))。

这种由基于补丁(ding)的(de)相(xiang)似度函(han)数引导的(de)自适(shi)应(ying)方(fang)法(fa),有效地解决(jue)了空间细节和时间广度之(zhi)间的(de)权衡问题。

AI边刷视频边思考!快手最新多模态大模型开源,80亿参数,实测推理超快

▲Keye-VL-1.5的慢(man)-快视频编码策略演示

2、渐进式预训练策略:四个精心设计阶段,确保训练稳定性

其次,快手实施了(le)一种渐进(jin)式的(de)四(si)阶段预训练方法,逐步构建多模(mo)态(tai)能力(li)。

从(cong)跨模态(tai)对齐(qi)和(he)多任务学(xue)习开始,在退火阶(jie)段,我们系统地将(jiang)模型(xing)的(de)上下文长(zhang)度从(cong)8K扩(kuo)展到128K tokens,使(shi)其能够(gou)处理更(geng)长(zhang)的(de)视频和(he)更(geng)复杂的(de)视觉内容。

这种渐(jian)进式方法(fa)确保(bao)了(le)训练的稳(wen)定性,同时最(zui)大(da)限度地利(li)用(yong)扩展(zhan)的上(shang)下文(wen)窗口来(lai)增(zeng)强视频理解能力。最(zui)后的模型融合阶段(duan)将使用(yong)不(bu)同数(shu)据混合训练的模型结合起来(lai),以提高(gao)稳(wen)健性并减(jian)少偏差。

AI边刷视频边思考!快手最新多模态大模型开源,80亿参数,实测推理超快

▲Keye-VL-1.5的四层渐进式预训练流程

3、全面的训练后方法:三个组件,推理增强和人类偏好对齐

第三(san),他(ta)们开发了一个全面的(de)训练后pipeline,专(zhuan)注于推理增强和人类偏好对齐。他(ta)们开发了一个包含(han)三(san)个关键(jian)组件的(de)综合流程。

首先,他们(men)设计了一个五步思维链(lian)推(tui)理数据(ju)构建流程,以(yi)生成高质量(liang)的冷启动数据(ju);其(qi)次,采用GSPO算法进行可验证的基于奖励的强(qiang)化学(xue)(xue)习训练(lian)。这(zhei)包(bao)括渐进式(shi)提示采样,以(yi)处理困难样本;最后,进行对齐强(qiang)化学(xue)(xue)习训练(lian),以(yi)增强(qiang)指(zhi)令(ling)遵循、响应格式(shi)和偏(pian)好对齐能(neng)力。

这种(zhong)系统化方法确(que)保Keye-VL-1.5在基准测试中取得优异性能,同时提供(gong)符合人类期望(wang)和偏好的响应。

四、基于谷歌、阿里开源模型训练,克服基础设施三大挑战

快手Keye-VL-1.5模(mo)型(xing)架构基(ji)于Qwen3-8B语言(yan)模(mo)型(xing),遵循(xun)经典的多(duo)模(mo)态大语言(yan)模(mo)型(xing)架构,包含三个关键组件(jian):视(shi)觉Transformer(ViT)、多(duo)层感知(zhi)机(MLP)投(tou)影器和(he)语言(yan)解(jie)码器。

AI边刷视频边思考!快手最新多模态大模型开源,80亿参数,实测推理超快

▲Keye-VL-1.5的模(mo)型架构(gou)

在ViT组件方面,快手采用谷歌开源的SigLIP-400M-384-14作为视觉编码器来提取视觉信息。在大语言模型(LLM)组件方面,他们使用阿里的Qwen3-8B作为语言解码(ma)器,以提(ti)供通用的(de)世(shi)界语义知识(shi)理解能力。对于投影器,他们随机初始化其参数,并(bing)在第一(yi)阶段(duan)对其进行充分(fen)的(de)预训(xun)练。

在(zai)模型预训练阶段,快手团队在(zai)数据(ju)构建流程中,组(zu)建了一(yi)个多样化、高(gao)质量的语料库,包含(han)超过1万亿个标记,用于支持模型训练,其来源既有(you)(you)(you)公共数据(ju)集(ji),也有(you)(you)(you)内(nei)部(bu)专有(you)(you)(you)数据(ju)。

训练数(shu)(shu)据(ju)涵盖六大主(zhu)要类(lei)别:图像描述、光学字符识别与视(shi)觉问答、目标定位与计(ji)数(shu)(shu)、交错数(shu)(shu)据(ju)、视(shi)频理解以及纯文(wen)本数(shu)(shu)据(ju)。团队针(zhen)对(dui)每个数(shu)(shu)据(ju)类(lei)别的特点(dian)设(she)计(ji)了定制(zhi)化的过滤机制(zhi),以确保整体(ti)数(shu)(shu)据(ju)质量。

为了(le)高效训练(lian)多(duo)模态大语言(yan)模型,快手团队进行了(le)深入(ru)的(de)基础设施优(you)化(hua),以解决(jue)三大主要挑战:架构异构性(xing)、负(fu)载不均衡和输入(ru)/输出瓶颈。

1、异构混合并行策略:对于计算模(mo)式相对固(gu)定的ViT组件(jian),仅(jin)采(cai)用数据并行(DP)以最大化吞(tun)吐量(liang);而对于参数和内存消耗极大的LLM,则采(cai)用结合流(liu)水(shui)线并行(PP)、张(zhang)量(liang)并行(TP)和数据并行(DP)的混合并行策略(lve)。这种精细化策略(lve)是实现Keye-VL-1.5的128K超长序列训练的关(guan)键技(ji)术前提(ti)。

2、动态负载均衡机制:预先估计每(mei)个样(yang)本的(de)时间复杂度,然后使(shi)用贪(tan)心(xin)算法在不同GPU之间分配样(yang)本,从(cong)而平(ping)衡所有(you)GPU的(de)总步骤(zhou)时长,提高整(zheng)体硬件利用率(lv)。

3、灵活且可扩展的数据加载器:设(she)计(ji)了(le)一(yi)种灵活且(qie)可扩(kuo)展的(de)(de)数据加载器,它能深(shen)度感知并行训练的(de)(de)拓扑结构;实施了(le)一(yi)种I/O服务(wu)器架(jia)构,将视频解码等CPU密集(ji)型任务(wu)从(cong)训练节点卸载出(chu)去(qu),有效解决了(le)复杂(za)媒(mei)体处理带(dai)来的(de)(de)CPU瓶(ping)颈问题;实现了(le)实例级的(de)(de)完美(mei)恢复机制,确保任务(wu)在中断后(hou)能够从(cong)最后(hou)一(yi)个成功处理的(de)(de)样本无缝恢复,显著(zhu)提高了(le)大规模训练的(de)(de)稳(wen)定性和(he)效率。

结语:AI加速读懂视频,或重塑视频行业交互与商业化

在本(ben)研究中,快手提出的Keye-VL-1.5显著提升了(le)视频理(li)解和(he)视觉(jue)-语(yu)言任(ren)务的性能(neng)。该模(mo)型高效地平(ping)衡了(le)时间(jian)覆盖范围和(he)空间(jian)分(fen)辨(bian)率,且能(neng)够(gou)处理(li)更长的视频和(he)复杂的视觉(jue)内容,且提升了(le)指(zhi)令(ling)遵循能(neng)力和(he)推理(li)能(neng)力。

当AI能(neng)够真(zhen)正理(li)解视频的细节与语义,视频行业(ye)的推荐、创作、互动和(he)商业(ye)化(hua)都(dou)将(jiang)被重塑(su)。Keye-VL-1.5仍处于初步阶段,在音频理(li)解、多模态内容生成、逻辑推理(li)等方面仍存在一些不(bu)足。但基(ji)于短视频平(ping)台的海量数据储备,该模型(xing)有望在之后快速迭代。