「AI新青(qing)年(nian)(nian)讲(jiang)座」将邀请世界顶尖AI研究机构和大学(xue)的科(ke)研新青(qing)年(nian)(nian),主讲(jiang)他们在计算机视觉(jue)、机器学(xue)习等(deng)人(ren)工(gong)智(zhi)能领域的最(zui)新重(zhong)要研究成果。

AI新(xin)青(qing)年是加速人工智(zhi)能(neng)(neng)(neng)前(qian)沿(yan)研究(jiu)(jiu)的(de)(de)新(xin)生力量。AI新(xin)青(qing)年的(de)(de)视频讲解(jie)和直播答(da)疑(yi),将可以帮助大家增进对人工智(zhi)能(neng)(neng)(neng)前(qian)沿(yan)研究(jiu)(jiu)的(de)(de)理解(jie),相应领(ling)域(yu)的(de)(de)专业知识(shi)也(ye)能(neng)(neng)(neng)够(gou)(gou)得以积累加深(shen)。同时,通过与AI新(xin)青(qing)年的(de)(de)直接交(jiao)流,大家在AI学习和应用AI的(de)(de)过程中遇(yu)到的(de)(de)问题,也(ye)能(neng)(neng)(neng)够(gou)(gou)尽快解(jie)决。

有(you)兴趣分享学术(shu)成果的朋友,可以与智东西(xi)公(gong)开(kai)课教研团队进行邮(you)件(class@k193.net)联系。

深度(du)推荐模(mo)(mo)型(xing)已(yi)经在电商、视(shi)频、游戏等产业领域有(you)广泛应(ying)用(yong)。在实际(ji)生产使用(yong)中,深度(du)推荐模(mo)(mo)型(xing)的(de)性能需要(yao)满(man)足(zu)苛刻(ke)的(de)服(fu)务(wu)(wu)延迟要(yao)求(qiu),并(bing)以此来满(man)足(zu)日益增长的(de)模(mo)(mo)型(xing)服(fu)务(wu)(wu)请求(qiu)与服(fu)务(wu)(wu)质量要(yao)求(qiu)。然(ran)而,目(mu)前(qian)已(yi)有(you)的(de)模(mo)(mo)型(xing)服(fu)务(wu)(wu)框架由于以下三点挑战导致其不(bu)能提(ti)供足(zu)够高效的(de)推荐模(mo)(mo)型(xing)推理服(fu)务(wu)(wu):

1)冗余的数据传输与计算;
2)开销无感知的算子调度;
3)算子启(qi)动的高(gao)开销。

为了(le)(le)应对上述(shu)挑战,阿里(li)DeepRec项目(mu)组(zu)实(shi)习生、北京航空航天(tian)大学在读博士游心(xin)等(deng)人(ren)提出了(le)(le)高性能深度(du)推荐(jian)(jian)模型服(fu)务(wu)框架(jia)RecServe,从(cong)而(er)支(zhi)持结构化特征以及会(hui)(hui)话组(zu)运行(xing)时(shi)(shi)(shi)设(she)(she)计来避免冗余数据传(chuan)输与计算(suan)的(de)(de)同时(shi)(shi)(shi),应用GPU支(zhi)持的(de)(de)多流并(bing)行(xing)方(fang)式(shi)来加速(su)推荐(jian)(jian)模型服(fu)务(wu)过程(cheng)。同时(shi)(shi)(shi),他们也在会(hui)(hui)话组(zu)运行(xing)时(shi)(shi)(shi)设(she)(she)计中增加了(le)(le)开销感知的(de)(de)算(suan)子调(diao)度(du)器,并(bing)实(shi)现了(le)(le)基(ji)于关键(jian)路径的(de)(de)算(suan)子调(diao)度(du)策略(lve)来进一步加速(su)推荐(jian)(jian)模型服(fu)务(wu)过程(cheng)。

此外,海量的(de)(de)训练(lian)(lian)数据对(dui)深度推荐(jian)模(mo)型(xing)的(de)(de)训练(lian)(lian)性(xing)(xing)能提(ti)出(chu)了更高(gao)的(de)(de)要求。其中(zhong),深度推荐(jian)模(mo)型(xing)训练(lian)(lian)中(zhong)存(cun)在的(de)(de)未知张(zhang)量形状、并(bing)行(xing)执行(xing)模(mo)式导(dao)致(zhi)的(de)(de)不确(que)定(ding)的(de)(de)算子执行(xing)顺序(xu)等现象,导(dao)致(zhi)其内(nei)(nei)存(cun)分配(pei)请求的(de)(de)时机与(yu)(yu)大小(xiao)都具有很强的(de)(de)动态性(xing)(xing)与(yu)(yu)不规则性(xing)(xing)。然而,目前没有一个已有的(de)(de)内(nei)(nei)存(cun)分配(pei)器可(ke)以有效处(chu)理深度推荐(jian)模(mo)型(xing)带来的(de)(de)动态性(xing)(xing)与(yu)(yu)不规则性(xing)(xing),并(bing)在训练(lian)(lian)过程中(zhong)引入不合理的(de)(de)内(nei)(nei)存(cun)分配(pei),从而导(dao)致(zhi)高(gao)昂的(de)(de)页错(cuo)误处(chu)理开销。

因此,游心博士等人(ren)提出了一(yi)种(zhong)图(tu)感(gan)(gan)知内存分(fen)配(pei)器GAMMA来实现可动态适配(pei)的图(tu)感(gan)(gan)知内存分(fen)配(pei)策略。相(xiang)较Tensorflow,GAMMA可以有效提升CPU、GPU上(shang)(shang)的端到端模型训(xun)练性能,并降低CPU、GPU上(shang)(shang)的峰值内存占用(yong)。

12月12日晚7点,「AI新青年(nian)讲座」第181讲邀请(qing)到游心博士参与(yu),主讲《深度推荐模型的推理与(yu)训练加速技(ji)术》。

讲者
游心,北京航空(kong)航天(tian)大(da)学在读博士(shi);师从(cong)杨(yang)海龙副教授(shou);当前研究方向(xiang)为高(gao)性(xing)(xing)能(neng)优化、性(xing)(xing)能(neng)分(fen)析工具(ju)、编译优化;曾获(huo)世界大(da)学生超算(suan)竞赛(sai)ASC17总(zong)决赛(sai)银(yin)奖(jiang)、ASC18总(zong)决赛(sai)一等奖(jiang),欧(ou)洲大(da)学生超算(suan)竞赛(sai)ISC17总(zong)决赛(sai)季军,获(huo)得第(di)一届开(kai)源科学软(ruan)件(jian)创意(yi)大(da)赛(sai)二等奖(jiang)、第(di)二届开(kai)源科学软(ruan)件(jian)创意(yi)大(da)赛(sai)三(san)等奖(jiang);以第(di)一作(zuo)者(zhe)发表CCF A类顶会(hui)论文《ZeroSpy: Exploring Software Inefficiency with Redundant Zeros》(SC20)、《VClinic: A Portable and Efficient Framework for Fine-grained Value Profilers》(ASPLOS23),B类论文2篇(pian)(pian),C类论文2篇(pian)(pian),EI论文4篇(pian)(pian),累计发表论文18篇(pian)(pian);目(mu)前正在阿里DeepRec项目(mu)组实习。

第181讲

主 题
《深(shen)度推荐模型的推理与(yu)训练加速技(ji)术》

提 纲
1、深度推荐模型在实际业务部署中的挑战
2、加速推理的多流并行及DeepRec框架
3、海量训练数据对深度推荐模型的要求
4、动态(tai)适配(pei)的图(tu)感知(zhi)内存分配(pei)策略及(ji)训(xun)练

直 播 信 息
直播时间:12月12日19:00
直播地点:智东西公开(kai)课知(zhi)识(shi)店铺

成果
DeepRec项目地址://github.com/alibaba/DeepRec