智东西(公众号:zhidxcom)
作者 | 三北
编辑 | 漠影

智东(dong)西4月(yue)2日(ri)报道(dao),当前,大(da)模(mo)型技(ji)术正在(zai)加速渗透到行(xing)(xing)业(ye)(ye)数字化(hua)进程中,赋能新的(de)应用场景,为各行(xing)(xing)各业(ye)(ye)创造价值。

近期,在北京市召开的人工智能企业代表座谈会上,旷视科技联合创始人、CEO印奇表示,旷视将基于对行业的深入理解,推动多模态大模型的技术创新和行业应用。同时,旷视将发挥在软硬结合方面的优势,围绕“大模型+机器人”的发展方向,推动人工智能为(wei)实(shi)体(ti)产业创造更大价值。

AI视觉的“大一统”:从CV到多模态,从行业大模型到机器人,旷视如何布局?

旷视布局大模型的实际进展如何?公司高层对大模型研发和产业落地有什么样的见解?智东西获悉,多模态行业大模型具身智能,是旷视围绕大模型进行布局的一个主逻辑

当下正值新的(de)AI视(shi)(shi)觉浪潮兴起(qi),从(cong)(cong)去年爆火的(de)ChatGPT到(dao)今(jin)年的(de)Sora,从(cong)(cong)机器人Figure01的(de)诞(dan)生到(dao)呼之欲出的(de)GPT-5,产业(ye)的(de)关(guan)注重(zhong)心正从(cong)(cong)文本转向(xiang)视(shi)(shi)觉,从(cong)(cong)单模(mo)态(tai)转向(xiang)多模(mo)态(tai)。

作为深耕深度学习技术超十年的旷视科技,也正从一家AI视觉公司,进化成一家多模态大模型公司

在业内不少人士看来,当下AI发展脉络可分为AI 1.0及AI 2.0,但印奇认为,AI的演进是一个连续的过程。从CNN、ResNet到Transformer,在上面的视觉、语音、NLP,都在从独立发展走向融合,从量变走向质变

按照(zhao)印(yin)奇的规(gui)划,旷视将面向(xiang)AGI(通(tong)用人工智(zhi)能)目标,基于(yu)(yu)其在视觉模(mo)(mo)型及(ji)软硬结合方面的优势,聚焦多(duo)模(mo)(mo)态大(da)(da)模(mo)(mo)型领域(yu),逐步实现具(ju)身智(zhi)能的价值主张;同时基于(yu)(yu)行业(ye)(ye)大(da)(da)模(mo)(mo)型,坚(jian)定走通(tong)2B(面向(xiang)企(qi)业(ye)(ye)的)商业(ye)(ye)变(bian)现路径。

一、AI视觉拥抱“大一统”,旷视驶向多模态

尽管视频生成模型Sora风(feng)靡(mi)全球,但AI视频领(ling)域的头部国(guo)产玩家(jia)旷视志(zhi)不在(zai)此。

OpenAI做的Sora是它们走向AGI的一个很重要的技术节点,随之(zhi)产生(sheng)了文生(sheng)视频潜在应(ying)用(yong),但更多是为(wei)了推动GPT-5。因此,重点是要(yao)理(li)解其底层的技术框架,而不是Sora应(ying)用(yong)本身。

同时,在图像视频的领域,要将“生成”和“理解”分开来看。如果将Sora作为独立应用来看的话,它聚焦视觉生成领域,核心应用场景更偏C端;旷视聚焦视觉感知理解侧,其多模态大模型是一个对图片、视频、文字等各种模态综合识别理解和做逻辑推理的引擎。因此,旷视不会去做Sora,不会涉足太多生成式AI领域,而是专注于理解能力上,面向2B业务打造行业应用。

基于这样的考虑,旷视对自己的定位是打造数十亿至数百亿参数之(zhi)间的多模态大模型。

旷视在视觉模(mo)型(xing)领域的(de)多年积累(lei),是其打造多模(mo)态大模(mo)型(xing)的(de)基础。同时,数(shu)十亿(yi)(yi)至数(shu)百亿(yi)(yi)参数(shu)规模(mo)属(shu)于中大型(xing)模(mo)型(xing),已具备较好的(de)通(tong)用属(shu)性(xing),且在行业部(bu)署成本、硬件适配度等方(fang)面是一个较好的(de)区间(jian)。

当前,视觉模型领域呈现出“大”“统一”的(de)(de)趋(qu)势(shi)(shi)。“大(da)(da)”意味(wei)着大(da)(da)数据、大(da)(da)算力(li)和(he)大(da)(da)参数量,“统一(yi)”体现在(zai)(zai)NLP、视(shi)(shi)觉(jue)(jue)、语音等模(mo)(mo)(mo)态的(de)(de)融合(he),以及感(gan)知、理解和(he)生成能力(li)的(de)(de)融合(he)。印奇表示,旷(kuang)视(shi)(shi)做多模(mo)(mo)(mo)态大(da)(da)模(mo)(mo)(mo)型,本质上在(zai)(zai)视(shi)(shi)觉(jue)(jue)走向大(da)(da)一(yi)统路(lu)径的(de)(de)背景下,补(bu)全(quan)了(le)语言模(mo)(mo)(mo)型方面的(de)(de)能力(li),并把它们结合(he)在(zai)(zai)一(yi)起,以符合(he)现在(zai)(zai)这种多模(mo)(mo)(mo)态大(da)(da)模(mo)(mo)(mo)型新的(de)(de)技术趋(qu)势(shi)(shi)。

本质上,旷视(shi)正在从一(yi)家(jia)AI视(shi)觉公司,进化成(cheng)一(yi)家(jia)多(duo)模(mo)(mo)态大模(mo)(mo)型公司。

从视觉大(da)模型,到生物识(shi)别、计算摄影(ying)、自动驾驶等垂类(lei)算法,是(shi)旷(kuang)视近十年(nian)来(lai)长期投入研发的(de)领域。旷(kuang)视本身在关(guan)于视觉的(de)技(ji)术(shu)、数据(ju)和底层框架(jia)上(shang)都(dou)拥有很深的(de)积累(lei),并在此基础上(shang)补齐了在语言方(fang)面的(de)能力,布局多模态大(da)模型,是(shi)顺理成(cheng)章的(de)。

从资源投入角度来看,旷视研究院目前聚焦两大方向:一是(shi)坚定投入多模(mo)态大模(mo)型的(de)研发,二是(shi)做机器人和大模(mo)型的(de)结合(he)。旷视(shi)已从传统意义上基于AI视(shi)觉的(de)垂类算法研发,进化到(dao)了与大模(mo)型深度结合(he)的(de)研发赛道(dao)。

纵观(guan)当下多模(mo)(mo)态(tai)大模(mo)(mo)产业,市面(mian)上主要有三类玩家,分别是(shi)从(cong)文本、从(cong)视频(pin)或是(shi)直(zhi)接从(cong)多模(mo)(mo)态(tai),切入多模(mo)(mo)态(tai)大模(mo)(mo)型(xing)领(ling)域(yu)做技术研发和(he)落地。

业内人士告诉智东西,图像是一个比文本更难的问题,因此旷视从视觉模型切入多模态,或许(xu)要比市面上的文本模型玩(wan)家(jia)切入多模态更容易。

二、聚焦行业大模型,企业共创抵达“最后一公里”

当下我(wo)国大模(mo)型(xing)发展如火(huo)如荼,已居于全(quan)球大模(mo)型(xing)发展前列。但同时,大模(mo)型(xing)产业仍(reng)面(mian)(mian)临数据、人才、安全(quan)等方面(mian)(mian)挑(tiao)战(zhan),与全(quan)球最先进水(shui)平存在较大差距。

在这种背景下,发展行业大模型成为(wei)一条可能(neng)的捷径。

旷视科技(ji)是(shi)(shi)这(zhei)一(yi)观点的支持者。基础大(da)模(mo)型(xing)与行(xing)业结(jie)合,是(shi)(shi)要让大(da)模(mo)型(xing)在高价(jia)值的行(xing)业里(li)不(bu)断迭代(dai)和进化。

一方面,大模型已经能够解决不少的需求碎片化问题。据悉,旷视(shi)目前大(da)量行业(ye)客户(hu)的需求都可以用(yong)大(da)模(mo)型解决(jue),包括(kuo)知识库、文案总结、图像视(shi)频事件(jian)分析等(deng)多个方面。比如,有客户(hu)提出通过大(da)量视(shi)频监测火(huo)情等(deng)情况,支持(chi)用(yong)自然语言描述进行系统交互;有客户(hu)提出建立支持(chi)文档、法条、行业(ye)经(jing)验等(deng)搜索的知识库,这(zhei)些场景都可以通过大(da)模(mo)型技术(shu)来实现(xian)降(jiang)本(ben)增效。

另一方面,要让大模型真正攻破“最后一公里”并不容易,还(hai)需要在(zai)行业(ye)大模型(xing)上下功夫。为此,旷视基(ji)于(yu)自研(yan)可控的基(ji)础大模型(xing),叠加行业(ye)里面的数据闭环(huan),去打造行业(ye)垂直模型(xing)。

如何让大模型攻破行业落地的(de)“最后一公(gong)里”?

按照印奇的观点,第一步,是要把基础模型叠加行业知识,让它变成金融模型、运营商模型等。因为基础大模型基本上无法覆盖这些行业本身的语料和数据;第二步,行业(ye)大(da)模型需(xu)要(yao)与行业(ye)中的场景和终端联(lian)动,这就意味着在(zai)云端大(da)模型以外,还需(xu)要(yao)配套(tao)一个能在(zai)端侧(ce)实现部署(shu)的附属模型。

旷视主张通过行业共创发展行(xing)(xing)业大模型(xing)。在行(xing)(xing)业大模型(xing)落地的过程中(zhong),大模型(xing)企(qi)业需(xu)要与行(xing)(xing)业从(cong)业者(zhe)坐在一(yi)起,通过梳理需(xu)求并评(ping)估技术可行(xing)(xing)性,确保业务(wu)价(jia)值大于技术实施成本。

基于多年在AIoT(智能物联)行业的积累,旷视从深度行业理解商业化积累软硬结合技(ji)术三大方面(mian)建立布局行业(ye)大模型的护城河。

1、深度理解行业(ye)(ye)。做行业(ye)(ye)模型(xing),需要(yao)(yao)以行业(ye)(ye)真正(zheng)深度的行业(ye)(ye)应用和场景理解为驱动,才能不(bu)光(guang)是做一(yi)个简单的技术中台,或者是一(yi)个PaaS层(ceng),更重要(yao)(yao)的是要(yao)(yao)做到行业(ye)(ye)有价值的行业(ye)(ye)应用层(ceng)和SaaS层(ceng)。

2、商业客户(hu)及经验积累。大模型的行(xing)业落地强调产品和商业化“一体两面(mian)”,只有(you)拥有(you)非常好的行(xing)业、客户(hu)和商业化能(neng)力资源积累,才(cai)能(neng)持续在行(xing)业里做迭代。

3、软(ruan)硬结合(he)技术积累(lei)。大模型与行(xing)业的(de)结合(he)往往需要大模型的(de)云(yun)侧(ce)(ce)和端(duan)侧(ce)(ce)的(de)联(lian)动,也就是软(ruan)硬结合(he)。旷视多年来积累(lei)的(de)“云(yun)+端(duan)”技术能(neng)力,也会帮助行(xing)业大模型的(de)产(chan)业化落(luo)地。

总的(de)来说(shuo),要真正将(jiang)行业(ye)(ye)大(da)模(mo)型的(de)商(shang)业(ye)(ye)模(mo)式打磨出来,一定不(bu)是(shi)简(jian)单拿开源模(mo)型改一改就行了(le),还要有端(duan)到端(duan)的(de)大(da)模(mo)型能力,打造能基(ji)于行业(ye)(ye)需(xu)求灵(ling)活调节(jie)的(de)大(da)模(mo)型。

同时(shi),行业(ye)大模型的本质上还(hai)是(shi)要(yao)以客(ke)户为中心,只有真的在行业(ye)浸泡很长时(shi)间,找(zhao)到行业(ye)痛(tong)点(dian),且能(neng)让需求(qiu)方和(he)供应方同时(shi)获得收益,才(cai)能(neng)让行业(ye)大模型成功抵达“最后一公里”。

三、软硬结合,布局“大模型+机器人”

如果说行业(ye)大(da)模(mo)型是(shi)旷视的现(xian)在,那么(me)“大(da)模(mo)型+机器人”就是(shi)旷视的未来。

在(zai)过去十年里,旷(kuang)视已将AI落(luo)地到了(le)智(zhi)慧城市(shi)、智(zhi)能(neng)制造、智(zhi)慧物(wu)流、消(xiao)费电(dian)子等多个行(xing)业,这(zhei)些都可能(neng)是未来机器(qi)人的(de)(de)核心应用场景(jing)。在(zai)这(zhei)个领域布局行(xing)业大模(mo)(mo)型将为旷(kuang)视提供(gong)自我造血能(neng)力,从而(er)支持其进一步(bu)探索(suo)“大模(mo)(mo)型+机器(qi)人”的(de)(de)研(yan)发与落(luo)地。

印(yin)奇表示,旷视的发展历史清(qing)晰地(di)表明,最初其专注于传感器和其运动(dong)部(bu)件,这些可以(yi)看作是机器人的“眼睛”。随后(hou),旷视在(zai)物流(liu)领域(yu)开(kai)发了类似机器人“腿(tui)”的自动(dong)化系统(tong)。

目(mu)前,旷视正在预(yu)研机(ji)器人(ren)的“手臂(bei)”,包括(kuo)工业机(ji)械臂(bei)和灵巧手。未来,旷视期望将眼(yan)、手、脚三者结合,打造泛(fan)机(ji)器人(ren)产(chan)品。

当(dang)前,旷视(shi)(shi)科技的(de)(de)重(zhong)点有两(liang)个:一是(shi)物流领域的(de)(de)机器(qi)人,它们在搬(ban)运和腿部(bu)(bu)功能上表现(xian)出色;二(er)是(shi)辅助(zhu)和自动驾驶领域,旷视(shi)(shi)将提供核心(xin)的(de)(de)感知-决策-控制系(xi)统部(bu)(bu)件(jian)。

按照旷视的(de)规划,其“大模(mo)型+机(ji)器人”战略(lve)是(shi)将(jiang)愿景与(yu)(yu)能(neng)(neng)力结合,追求AGI(通用人工智能(neng)(neng))和机(ji)器人技术,以实现(xian)与(yu)(yu)人类(lei)生活的(de)深度互(hu)动(dong)和世界本质(zhi)的(de)美好变化。

在商(shang)业(ye)模式上,AI与新硬件结合(he)带来巨大商(shang)业(ye)机会(hui),类(lei)比从PC到手机的变革,机器人(ren)行(xing)业(ye)潜力(li)巨大。技术发展需长期(qi)积累和成(cheng)本控(kong)制,实现规模化(hua)(hua)推广。旷(kuang)视致力(li)于软硬结合(he)和商(shang)业(ye)化(hua)(hua),通过短期(qi)盈利闭环逐步扩大商(shang)业(ye)规模,目(mu)标成(cheng)为(wei)AI机器人(ren)领域的全球领先(xian)企业(ye)。

结语:视觉走向大一统,旷视推动多模态落地行业

当下(xia),随(sui)着AI成为发展新(xin)(xin)质生产力(li)的(de)重(zhong)要引擎,AI视觉技术(shu)也正(zheng)走向新(xin)(xin)的(de)大一统。透过(guo)旷视科技在大模(mo)型(xing)领域的(de)布局,我(wo)们看到视觉大模(mo)型(xing)正(zheng)与文本模(mo)型(xing)加快(kuai)融(rong)合,从(cong)而进入多模(mo)态大模(mo)型(xing)新(xin)(xin)阶段。

布局行业大(da)模(mo)型是(shi)当下我(wo)国“AI+”发展的(de)有(you)(you)效路径之一。在(zai)(zai)过去的(de)十几年(nian)的(de)时间里,旷视从技术长期坚持、迭代(dai)演进到商业模(mo)式不断探索,其(qi)技术积累及经验教训都(dou)有(you)(you)望促进其(qi)在(zai)(zai)行业大(da)模(mo)型落地中(zhong),与企(qi)业共创攻破“最后(hou)一公(gong)里”。