「自(zi)动驾驶新(xin)青年讲(jiang)座」由智猩猩企划,致力于邀请全球知(zhi)(zhi)名高校、顶尖(jian)研究机构以(yi)及优秀企业的新(xin)青年,主讲(jiang)在环境感知(zhi)(zhi)、精准定位、决(jue)策规划、控制执行等(deng)自(zi)动驾驶关键技术上的最新(xin)研究成果(guo)和开发实践(jian)。

「自动(dong)驾驶新青年讲座」目(mu)前已完结(jie)34讲,有(you)兴趣(qu)分享的朋(peng)友,可以(yi)与智猩猩教研团(tuan)队(dui)进(jin)行(xing)邮件(class@k193.net)联系

自动驾驶领域(yu)的(de)算法研(yan)究(jiu)和落地应用已经取得了诸(zhu)多显著进展,但这些近(jin)期的(de)工作在(zai)遇到长尾事件和复杂(za)城市驾驶场景时,仍存在(zai)一(yi)系列困(kun)难与挑战(zhan),甚至可能引发(fa)严(yan)重的(de)驾驶事故。

更(geng)具体(ti)来说,以往(wang)的自动驾驶(shi)方法倾向(xiang)于依赖有限格式的输(shu)入(例如传感器数据(ju)和导航点),限制(zhi)了车(che)辆(liang)理解(jie)语言信(xin)息和与人交互的能力。而(er)大语言模型(LLM)相关(guan)的最新研究(jiu)成(cheng)(cheng)果则展现出接近(jin)“通用(yong)人工智能”的能力,包含一(yi)(yi)系列令人印象深刻的知识理解(jie)和推理能力。因此(ci),如何将二者有效结合就成(cheng)(cheng)为了一(yi)(yi)个值(zhi)得探索的研究(jiu)课题。

LMDrive 是香港中(zhong)文大学、商汤科(ke)技(ji),以及上海人(ren)工(gong)智(zhi)能实验室(OpenDILab 团队)等机(ji)构的(de)(de)(de)研(yan)究者(zhe)们提(ti)出的(de)(de)(de)第(di)一个利用(yong)大语(yu)言模(mo)型进(jin)行闭环端到端自动(dong)驾驶(shi)的(de)(de)(de)工(gong)作,结合了自然语(yu)言指令和(he)多模(mo)态(tai)传感(gan)器数(shu)据,实现了复杂驾驶(shi)场景(jing)中(zhong)准确(que)且(qie)高效的(de)(de)(de)导(dao)航和(he)人(ren)机(ji)交互(hu)。

香港中文大学MMLab在读博士邵昊:LMDrive——大语言模型加持的闭环端到端自动驾驶框架|自动驾驶新青年讲座

LMDrive 主(zhu)要从以(yi)下四(si)个方面进行了深(shen)入的探索(suo)和研究:

1、提出全新的自(zi)动(dong)驾(jia)驶框架(jia) LMDrive:这是(shi)一个(ge)端(duan)到(dao)端(duan)、闭环(huan)、基于语(yu)言控制的自(zi)动(dong)驾(jia)驶框架(jia),能够通过多模态多视角(jiao)传感器数据和自(zi)然(ran)语(yu)言指令与动(dong)态环(huan)境进(jin)行交互。

2、构建了约 64K 数据量的语言引导驾驶数据集:其中每个条目包含一条导航指令、几条提示指令、一系列多模态多视角传感器数据和车辆控制信号。每个数据片段的时长从 2 秒到 20 秒不等。
3、推出 LangAuto 基(ji)准(zhun)测试框架:用于评估以(yi)语(yu)言指(zhi)令为导(dao)航输入的自动驾驶Agent 性能(neng),涵盖误导(dao)性/冗长指(zhi)令和(he)具有挑(tiao)战性的对(dui)抗性驾驶场景。

4、进行(xing)广泛(fan)的(de)闭环实验:通过实验验证所(suo)提(ti)出框架的(de)有效性,并分析 LMDrive 的(de)不同组成(cheng)部分,为沿(yan)此方向的(de)研究提(ti)供分析。

1月22日晚7点,「自(zi)(zi)动驾(jia)驶新青年(nian)讲(jiang)座」第35讲(jiang)邀请(qing)到 LMDriver 一作、香港中文(wen)大(da)学 MMLab 在读博士邵昊(hao)参与,主讲(jiang)《LMDrive:大(da)语言模型加持的(de)闭环端到端自(zi)(zi)动驾(jia)驶框架》。

讲者
邵昊,香港中文大学MMLab在读博士;师从李鸿升(sheng)教(jiao)授和王(wang)晓刚教(jiao)授,研(yan)究方向为端(duan)到端(duan)自动驾驶(shi),多(duo)模(mo)态(tai)大语言模(mo)型,视频理解(jie);曾在CVPR、CoRL、NeurIPS、RSS等顶(ding)级会议发(fa)表多(duo)篇(pian)论文;曾获2022年度CARLA端(duan)到端(duan)自动驾驶(shi)挑战(zhan)赛冠军(sensor track),2020年度ActivityNet挑战(zhan)赛冠军等。

第35讲
主 题
《LMDrive:大语言模型(xing)加持(chi)的(de)闭环端到端自(zi)动驾(jia)驶(shi)框架》

提 纲
1、端到端闭环自动驾驶概述
2、基于语言控制的端到端闭环自动驾驶框架 LMDrive
3、64K 数据量的语言引导驾驶数据构建
4、基于语言引导的自动驾驶 Agent 性能评估
5、广泛的闭(bi)环实(shi)验(yan)验(yan)证及未来研究(jiu)方(fang)向探(tan)讨

直 播 信 息
直播时间:1月22日19:00
直播地点:智东西公开课知识店铺

成果
论文标题《LMDrive: Closed-Loop End-to-End Driving with Large Language Models》
论文地址//arxiv.org/abs/2312.07488
代码链接//github.com/opendilab/LMDrive