自动驾(jia)驶(shi)新(xin)青年(nian)讲座」由智东(dong)西公开(kai)课(ke)企划,致力(li)于邀(yao)请全球知名高校、顶尖研究(jiu)机(ji)构以及优秀企业的(de)(de)新(xin)青年(nian),主讲在环境感知、精准(zhun)定(ding)位、决(jue)策(ce)规(gui)划、控制执行等自动驾(jia)驶(shi)关键(jian)技(ji)术上的(de)(de)最新(xin)研究(jiu)成果(guo)和开(kai)发(fa)实(shi)践。

「自动驾驶新青年讲座」目前已完结20讲,错过往期讲座直播的朋友,可以点击文章底部“阅读原文”进行回看!

有兴趣分享的朋友,可以(yi)与智东西公开(kai)课教研团队进行邮件(class@k193.net)联系。

在自动驾驶领(ling)域,由于单模态数据(ju)的(de)(de)感知存在固有缺(que)陷,基于多模态的(de)(de)融合感知技术已(yi)成为了众多自动驾驶企(qi)业及(ji)团队研究(jiu)的(de)(de)核(he)心之一。但由于LiDAR容(rong)易受(shou)极端天(tian)气的(de)(de)影响,且与(yu)相(xiang)机(ji)相(xiang)比价格昂贵,因此(ci)没(mei)有被广泛采用。然(ran)而,相(xiang)机(ji)捕捉的(de)(de)2D图(tu)像(xiang)和(he)LiDAR 3D点(dian)云特征之间仍(reng)存在较大(da)差异,基于多视(shi)角相(xiang)机(ji)的(de)(de)3D目标检测(ce)依然(ran)是一个具有挑(tiao)战性的(de)(de)问题。

基于(yu)自监督、多模(mo)(mo)态(tai)数据(ju)的(de)通(tong)用(yong)预训练方(fang)法能(neng)(neng)(neng)够尽可能(neng)(neng)(neng)多的(de)学(xue)习到通(tong)用(yong)先(xian)验知识,通(tong)过(guo)微调实(shi)现知识迁移。它能(neng)(neng)(neng)够显(xian)著降(jiang)低下(xia)游任(ren)务(wu)对标注(zhu)数据(ju)的(de)依赖,提高模(mo)(mo)型(xing)在(zai)小(xiao)数据(ju)集上(shang)的(de)泛化能(neng)(neng)(neng)力。这类方(fang)法在(zai)2D感知任(ren)务(wu)上(shang)取得了显(xian)著进(jin)展,但在(zai)基于(yu)视觉(jue)的(de)BEV感知模(mo)(mo)型(xing)方(fang)面(mian)还(hai)尚未获得更多关注(zhu)。

针对这一问题,香港中文大学多媒体实验室(MMLab)在读博士刘吉豪等研究人员详细对比了现有的预训练算法在基于视觉的BEV感知模型上的表现,提出了一种基于几何增强的图像掩码预测算法GeoMIM,来增强视觉模型的BEV感知和几何理解能力。通过掩码预测将LiDAR所蕴含的丰富几何表征迁移到视觉模型中。经过预训练的视觉模型可广泛应用于各种3D检测、分割等下游任务,并且在不同的数据集间具有可迁移性。GeoMIM算法相关成果的论文收录在 ICCV 2023上。

8月25日10点,「自动驾驶新青年讲座」第21讲邀请到论文一作香港中文大学在读博士刘吉豪参与,主讲《面向BEV感知与几何理解的视觉骨架预训练》。

讲者

刘(liu)吉豪,香港(gang)中文(wen)大(da)学电子工程系,多(duo)媒体实验室(MMLab)在读(du)博士,师从李鸿升教(jiao)授。主要研究方向(xiang)为基(ji)于自监督、多(duo)模(mo)态的视觉基(ji)础模(mo)型预训练(lian)。在ICCV、CVPR、ECCV等会议上发表多(duo)篇论文(wen),曾获得LFR Challenge第一名,NIST FRVT第一名。

第21讲

主 题

《面(mian)向BEV感知(zhi)与(yu)几何理解的视觉骨(gu)架(jia)预训练(lian)》

提 纲

1、2D感知模型预训练算法及其在BEV感知上的应用
2、利用激光雷达网络的BEV知识蒸馏算法研究
3、面向几何理解下游任务的表征预训练算法GeoMIM
4、结合GeoMIM预训练模型的下游应用

直 播 信 息
直播时间:8月25日10:00
直播地点:智东西公开课知(zhi)识店(dian)铺(pu)

成果

论文标题
《Towards Better 3D Knowledge Transfer via Masked Image Modeling forMulti-view 3D Understanding》

论文链接
//arxiv.org/abs/2303.11325