智东西(公众号:zhidxcom)
文 | CJ
3月9日,由智东西主(zhu)办的GTIC 2018全球AI芯片创新峰会在上海召开,大会邀请到32名(ming)重磅嘉宾到场分享,超过一(yi)万名(ming)观众报(bao)名(ming),会场内座无虚席(xi),会场外(wai)甚(shen)至还有大量来晚(wan)的观众直接选择就(jiu)地观看直播。
在这次大(da)会中,触(chu)景(jing)无限CEO肖洪(hong)波以“前端智(zhi)(zhi)能为安防(fang)产生新的(de)数据价值”为题做了精彩(cai)的(de)演讲。对于安防(fang)中越来越重要的(de)前端智(zhi)(zhi)能,触(chu)景(jing)无限有着许多不同的(de)看法, 以下是智(zhi)(zhi)东(dong)西整理的(de)演讲干货。
一、传统监控技术无法满足现有需求
触(chu)景(jing)无(wu)(wu)限(xian)创立于(yu)2010年(nian),一(yi)直(zhi)专注做(zuo)智(zhi)能(neng)感(gan)知,在2016年(nian),触(chu)景(jing)无(wu)(wu)限(xian)开始步入(ru)安防领域,致(zhi)力于(yu)为安防摄像头以及无(wu)(wu)人机等提供智(zhi)能(neng)感(gan)知能(neng)力。
随着技术的(de)(de)提升和市场的(de)(de)发展,如今的(de)(de)安防已经和以(yi)前完(wan)全不(bu)同。首先(xian),大(da)量(liang)的(de)(de)安防数(shu)据(ju)(ju)对(dui)传统(tong)安防系统(tong)提出挑战。摄(she)像头的(de)(de)传感器每天都(dou)会产生大(da)量(liang)的(de)(de)数(shu)据(ju)(ju),单个高清摄(she)像头就需要10Mb/s的(de)(de)带宽,2亿摄(she)像头需要2Pb/s的(de)(de)存储(chu)空间(jian)。安防数(shu)据(ju)(ju)体量(liang)非常大(da),大(da)到(dao)需要5000个YouTube才能存储(chu)所有摄(she)像头的(de)(de)视频数(shu)据(ju)(ju)。
其次(ci),传(chuan)统监控技(ji)术无法满足(zu)现有需(xu)求。在很(hen)多场景下(xia),很(hen)多时候的监控是(shi)存储后,靠人力来做筛查,或者(zhe)是(shi)摄(she)像(xiang)头(tou)的数(shu)据(ju)传(chuan)输(shu)到云端,然后通过云端来做计算分析。因(yin)此,传(chuan)统监控技(ji)术的实(shi)时性不够好。
想(xiang)象一(yi)个(ge)无人机在飞(fei)行过(guo)程中要做(zuo)周(zhou)围物体(ti)识别,通(tong)过(guo)双目摄(she)像头判断周(zhou)围距离(li)做(zuo)避障,如(ru)果(guo)我们需(xu)要把数(shu)据(ju)(ju)传(chuan)到云(yun)端,云(yun)端有可(ke)能(neng)要排队,如(ru)果(guo)附近的(de)无人机同时(shi)也在往云(yun)端上(shang)传(chuan)数(shu)据(ju)(ju),两边的(de)数(shu)据(ju)(ju)得不到及时(shi)的(de)处理(li),这样(yang)就可(ke)能(neng)会导致“撞机”。
此外,由于(yu)安防的发展(zhan),用在家(jia)庭里的摄像(xiang)头也越来(lai)越多了,在如家(jia)庭的场景中(zhong),传(chuan)(chuan)统的服务器处理需要把这(zhei)样的非常隐(yin)私的数(shu)据联网(wang)传(chuan)(chuan)输到云端进(jin)行分析计算,所以传(chuan)(chuan)统监控技术也无法保障一些场景下(xia)视频数(shu)据的隐(yin)私性。
与此(ci)同时(shi),和传(chuan)统(tong)的对视频编(bian)码进行有(you)损压缩不同,在前(qian)端(duan)很容(rong)易能(neng)获取原始(shi)数(shu)据(ju),可以直(zhi)接在原始(shi)数(shu)据(ju)上进行处理,并且处理结果(guo)可以重新回馈到传(chuan)感(gan)器底层,可以利用智能(neng)分析的结果(guo)对底层SP( Subspace Pursuit,子(zi)空(kong)间追踪)算法(fa)做优化(hua),从而获取更(geng)好的数(shu)据(ju)质量。
二、多维度感知真实世界
因此,前(qian)端智(zhi)能(neng)凭着实(shi)时(shi)性(xing)、隐私性(xing)、降(jiang)低后端压(ya)力和(he)提(ti)升(sheng)后端效率和(he)质量等优势(shi)成(cheng)为了(le)安防的(de)(de)升(sheng)级趋势(shi)之一。在会后接受智(zhi)东(dong)西专访时(shi),肖洪波也提(ti)到,未(wei)来5年会有(you)(you)越来越多的(de)(de)带有(you)(you)前(qian)端感知能(neng)力的(de)(de)电子产(chan)品进入市场(chang)。如何利(li)用传感器的(de)(de)感知能(neng)力挖掘更多有(you)(you)价(jia)值的(de)(de)数据,将是一个重要的(de)(de)课题(ti)。
除(chu)了图片(pian)、视频外,前(qian)端智能还可以通过多(duo)个数(shu)据维度(du)来感知自身所处(chu)的真实世界,比如声音(yin)、测(ce)距(ju)、地理位置、激(ji)光(guang)测(ce)距(ju)、气压、高度(du)等。触景无限希望在(zai)前(qian)端把传感器的数(shu)据融合(he)在(zai)一(yi)起(qi),提供多(duo)维的数(shu)据,在(zai)数(shu)据的基(ji)础之(zhi)上再做人(ren)工智能的分析。
因(yin)为真实世界中,人所观察到的(de)(de)数据(ju)(ju)本(ben)身(shen)就是(shi)有关联(lian)的(de)(de)而不是(shi)割裂的(de)(de)。人会结合多种(zhong)信息综合分析(xi),比如把(ba)一(yi)些距(ju)离信息和图象信息做融合,或者(zhe)说把(ba)热感信息和图象做融合,而当我们有多维度数据(ju)(ju)再分析(xi)的(de)(de)时候,往(wang)往(wang)可以分析(xi)出更有价值的(de)(de)信息。
比如说(shuo)声音的(de)(de)信(xin)(xin)息,前端智(zhi)能让摄像头(tou)(tou)可(ke)以通过(guo)耳机(ji)阵列(lie)判断声音传来的(de)(de)方向和(he)角度,可(ke)以把(ba)现场发(fa)(fa)(fa)来的(de)(de)呼救、枪声、玻璃(li)破碎的(de)(de)声音和(he)摄像头(tou)(tou)来进行联动。这样(yang)的(de)(de)话,当发(fa)(fa)(fa)生(sheng)突(tu)发(fa)(fa)(fa)事件的(de)(de)时候(hou),摄像头(tou)(tou)可(ke)以通过(guo)声音的(de)(de)信(xin)(xin)息调节摄像头(tou)(tou)拍(pai)下(xia)合适(shi)的(de)(de)图片、视频。
在前端(duan)获(huo)取(qu)数据(ju)(ju)后,前端(duan)需要提供(gong)比(bi)较(jiao)微(wei)观的(de)(de)(de)(de)数据(ju)(ju)可(ke)测(ce)(ce)量(liang)(liang)用于未来对(dui)前端(duan)设(she)备(bei)的(de)(de)(de)(de)预测(ce)(ce)。所(suo)谓的(de)(de)(de)(de)微(wei)观主(zhu)要是(shi)在时(shi)间的(de)(de)(de)(de)维(wei)度(du)(du),在毫(hao)秒级维(wei)度(du)(du)对(dui)数据(ju)(ju)进行测(ce)(ce)量(liang)(liang)。以火车(che)站(zhan)场景(jing)为例,当距(ju)离(li)(li)很远的(de)(de)(de)(de)时(shi)候人(ren)脸是(shi)非常小的(de)(de)(de)(de),甚至(zhi)小到无法做人(ren)脸识(shi)别,这样(yang)的(de)(de)(de)(de)数据(ju)(ju)没有(you)价值。而在距(ju)离(li)(li)很近的(de)(de)(de)(de)时(shi)候,人(ren)脸角度(du)(du)可(ke)能(neng)因(yin)(yin)为光照(zhao)的(de)(de)(de)(de)条件而变(bian)得不适合抓(zhua)拍。因(yin)(yin)此(ci),前端(duan)所(suo)要做的(de)(de)(de)(de)就(jiu)是(shi)确定在哪一帧、哪一个(ge)点(dian)做合适的(de)(de)(de)(de)抓(zhua)拍,这就(jiu)需要前端(duan)摄(she)像头能(neng)根据(ju)(ju)周围的(de)(de)(de)(de)场景(jing)不断(duan)地做调(diao)整(zheng)。
三、“在螺丝里做道场”:前端智能面临三大挑战
前(qian)端智能(neng)(neng)和云端相比,虽然(ran)具有(you)很多优点,但是同时也面临三(san)大挑战(zhan):模型参(can)数大、实时要求高、运算(suan)能(neng)(neng)力弱。
对此(ci),肖洪波表(biao)示,前端(duan)(duan)(duan)智能(neng)是(shi)“在螺丝里(li)做道(dao)场(chang)”,前端(duan)(duan)(duan)运(yun)算力有限、功耗(hao)也很低(di),所以(yi)需要把散(san)热、功耗(hao)做的非常低(di)。在运(yun)算力有限的情况下,需要做模(mo)型(xing)压缩、优(you)(you)化,这些最后(hou)会转化成数学上的优(you)(you)化问题,从而对整个模(mo)型(xing)进行优(you)(you)化。所以(yi),前端(duan)(duan)(duan)嵌入式(shi)的人工(gong)智能(neng)研(yan)究是(shi)很多底(di)层的优(you)(you)化工(gong)作。
而对于这三大挑战,触景无限认为除了感知数(shu)(shu)据(ju)以(yi)外,还需引入(ru)时(shi)间维度(du)的(de)(de)(de)数(shu)(shu)据(ju)。通过(guo)带时(shi)间维度(du)的(de)(de)(de)视频数(shu)(shu)据(ju),可以(yi)实现(xian)多(duo)摄像头(tou)(tou)之间的(de)(de)(de)联动,在前(qian)端获得更(geng)多(duo)信息(xi),这样的(de)(de)(de)加入(ru)时(shi)间维度(du)的(de)(de)(de)多(duo)摄像头(tou)(tou)场景叫(jiao)做前(qian)端摄像头(tou)(tou)的(de)(de)(de)感知阵列。
肖洪(hong)波(bo)说,通常(chang)的(de)模型都是(shi)基于(yu)卷积(ji)神经网络,用图象处理的(de)方(fang)式来(lai)处理视频(pin)。实(shi)际前(qian)端处理过程当中,会(hui)碰到大(da)量(liang)的(de)视频(pin)数据,而视频(pin)数据本身是(shi)带(dai)有时间维度(du)的(de),只(zhi)是(shi)以前(qian)处理的(de)时候被忽(hu)略了。
因此通过这(zhei)样(yang)的多摄像(xiang)头的联(lian)动,可以(yi)判断一个人(ren)在多摄像(xiang)头里的身(shen)份,实现轨迹追踪。这(zhei)样(yang)可以(yi)对未来进行预测,通过时间维度预测以(yi)后,实现在前端处理人(ren)工智能(neng)(neng)AI模(mo)型的优(you)化处理,获得更好的处理性能(neng)(neng)。
触景无限通过边缘智能(neng)感知终端(duan)集群(SENS)可以实(shi)现(xian)多(duo)摄像(xiang)头的联动,这是一(yi)个智能(neng)感知的模组,体积很小,大概和一(yi)块钱人(ren)民币硬币一(yi)样大,通过这个模组,可以实(shi)现(xian)扩摄像(xiang)头追踪、识别,从而形成局部的前端(duan)感知阵列(lie)。
除了多摄像头(tou)联动外,感知数据的(de)优化也非常(chang)重要。比如,在(zai)一个非常(chang)逆光的(de)场景,人脸的(de)后面有一个非常(chang)亮的(de)灯,人脸处(chu)于(yu)逆光环境,呈现(xian)在(zai)镜头(tou)前其实是黑的(de),而(er)通过算法(fa)处(chu)理以(yi)后可(ke)以(yi)把(ba)人的(de)脸拍的(de)非常(chang)清(qing)楚,在(zai)非常(chang)强逆光的(de)情况下(xia)也可(ke)以(yi)获得非常(chang)清(qing)晰的(de)图象。
在(zai)前端,触景(jing)无限实现了(le)算法(fa)模型优化(hua)工(gong)厂(chang),提供嵌入式DPU、FPGA,帮助(zhu)安防(fang)厂(chang)商的(de)产品(pin)(例如摄(she)像(xiang)头)获得(de)前端的(de)感知能(neng)力。在(zai)2017年,触景(jing)无限推出了(le)前端抓(zhua)拍(pai)系(xi)统瞬视,基于英特尔Movidius芯片打造,可以在(zai)前端实现不跳桢的(de)人(ren)脸(lian)抓(zhua)拍(pai),单(dan)帧(zhen)图(tu)像(xiang)可实现100张人(ren)脸(lian)抓(zhua)拍(pai),并且可以针对(dui)特定区域(yu)进行图(tu)象的(de)优化(hua)(比如强(qiang)逆光)。
结语:安防的前端智能不止人脸识别
提到安防,总会第一个想(xiang)(xiang)到人脸识别,大家经常(chang)会看(kan)到不(bu)同新闻中的人脸识别的算(suan)法准确度(du)将(jiang)近(jin)100%的数据,但是当思考如(ru)何将(jiang)AI落地安防这个问题时(shi),要想(xiang)(xiang)的绝不(bu)仅仅只有(you)狭义的人脸识别而已。
人脸识别前的(de)(de)数(shu)据采集如(ru)何优化,如(ru)何抓拍(pai)到高质量的(de)(de)图片,采集后如(ru)何将多种数(shu)据智能结(jie)合分(fen)析挖掘其背后更大的(de)(de)价值,这些问(wen)题都非常值得思考。