「AI新青年(nian)讲座(zuo)」将邀请(qing)世界顶(ding)尖AI研究机(ji)构和大学(xue)的科研新青年(nian),主讲他们在计(ji)算机(ji)视觉、机(ji)器学(xue)习等(deng)人工智能领域的最新重要研究成果。
AI新青(qing)年是加速人(ren)工(gong)智能(neng)前沿(yan)研(yan)究的(de)新生力量(liang)。AI新青(qing)年的(de)视频讲解(jie)和(he)直播(bo)答疑,将可(ke)以(yi)帮助大家增(zeng)进对人(ren)工(gong)智能(neng)前沿(yan)研(yan)究的(de)理(li)解(jie),相应(ying)领(ling)域的(de)专(zhuan)业知识也能(neng)够(gou)得以(yi)积累加深。同时,通过与AI新青(qing)年的(de)直接交流(liu),大家在AI学习和(he)应(ying)用AI的(de)过程中遇(yu)到的(de)问题,也能(neng)够(gou)尽快解(jie)决(jue)。
「AI新(xin)青(qing)年讲座(zuo)」目前已(yi)完结108讲,错(cuo)过往期讲座(zuo)直(zhi)播的朋友,可以点击文(wen)章(zhang)底部“阅读(du)原文(wen)”进(jin)行回看!
有兴趣分享学术成(cheng)果的朋友,可以(yi)与智东西公(gong)开(kai)课教研(yan)团队进行邮件(class@k193.net)联系。
近年来,如BERT等预训(xun)练语言模型在自然语言处(chu)理上表(biao)现出(chu)色(se),但其庞大的(de)参数(shu)量阻碍了(le)(le)它在真实世界的(de)硬件设备上的(de)部署。研究者(zhe)们提出(chu)了(le)(le)许多(duo)参数(shu)量化(hua)的(de)方案,通过将浮点(dian)参数(shu)转换为定(ding)点(dian)数(shu)表(biao)示(shi),能使模型变(bian)得紧凑(cou)和高效。
其(qi)中,二值化(hua)(hua)作为一种极限压缩手段(duan),通过将模(mo)型(xing)的(de)权重、激(ji)活均量化(hua)(hua)到1比特,在硬件(jian)推(tui)理时(shi)使(shi)用逐位运算操作,能显著(zhu)加(jia)快(kuai)模(mo)型(xing)部署到真实硬件(jian)时(shi)的(de)推(tui)理速度。但量化(hua)(hua)模(mo)型(xing)尤其(qi)是二值化(hua)(hua)模(mo)型(xing),往(wang)往(wang)面临(lin)严(yan)重的(de)表达能力有限和优化(hua)(hua)困难(nan)的(de)问题。
在丁一(yi)芙(fu)博(bo)士(shi)等(deng)人的(de)研(yan)究中发现,在BERT模型的(de)注意力(li)机(ji)制中,直(zhi)接对softmax的(de)归一(yi)化(hua)注意力(li)权(quan)重进行二值化(hua)会导致完全的(de)信息(xi)丧失。此外(wai),由于(yu)注意力(li)权(quan)重是两(liang)个(ge)二值化(hua)的(de)激活(huo)直(zhi)接相乘而得(de),处(chu)于(yu)决(jue)策边缘的(de)值很容易被二值化(hua)到相反的(de)一(yi)侧,常规的(de)直(zhi)接优化(hua)注意力(li)权(quan)重常常在训练过(guo)程中发生优化(hua)方(fang)向失配(pei)问(wen)题。
丁一(yi)芙等人提出了一(yi)个针(zhen)对(dui)BERT模型(xing)的(de)全二值化(hua)方(fang)法(fa)——BiBERT,针(zhen)对(dui)上述(shu)两个问(wen)题(ti)针(zhen)对(dui)性(xing)地提出了二值注(zhu)意(yi)力机(ji)制(zhi)(Bi-Attention)解(jie)决前向(xiang)(xiang)(xiang)传(chuan)播(bo)中(zhong)二值化(hua)后的(de)注(zhu)意(yi)力机(ji)制(zhi)的(de)信(xin)息退化(hua)问(wen)题(ti),和(he)方(fang)向(xiang)(xiang)(xiang)匹配(pei)蒸(zheng)馏(liu)(DMD)缓解(jie)后向(xiang)(xiang)(xiang)传(chuan)播(bo)中(zhong)蒸(zheng)馏(liu)的(de)优化(hua)方(fang)向(xiang)(xiang)(xiang)不匹配(pei)问(wen)题(ti)。BiBERT超过了现有的(de)BERT模型(xing)二值化(hua)方(fang)法(fa),甚至优于采用更多比特的(de)量化(hua)方(fang)案(an),在模型(xing)计算(suan)量和(he)体积上,BiBERT理论(lun)上能够带来56.3倍和(he)31.2倍的(de)FLOPs和(he)模型(xing)尺寸的(de)减(jian)少。该(gai)工作被 ICLR 2022 接(jie)收。
4月14日,「AI新(xin)青(qing)年(nian)讲(jiang)座」第(di)109讲(jiang)邀请到北(bei)京(jing)航空(kong)航天在(zai)读博(bo)士丁一芙参与,主(zhu)讲(jiang)《面向极(ji)限压缩的全二值化BiBERT》。
讲座内容
主 题
《面向极(ji)限压缩(suo)的全(quan)二(er)值(zhi)化BiBERT》
提 纲
1、BERT预训练语言模型的部署问题
2、BERT模型二值化的局限性
3、针对BERT模(mo)型的全二(er)值化方法BiBERT
直 播 信 息
直播时间:4月14日19:00
直播地点(dian):智东西公(gong)开课知识店铺
论文成果
BiBERT:《BiBERT: Accurate Fully Binarized BERT》
链接://openreview.net/forum?id=5xEgrl_5FAJ
讲者
丁(ding)一(yi)芙,北京航空航天(tian)大(da)学(xue)(xue)在读博士,师从刘祥龙教(jiao)授(shou);此前于(yu)北京航空航天(tian)大(da)学(xue)(xue)获得(de)学(xue)(xue)士学(xue)(xue)位;研究兴趣(qu)为神经(jing)网络量化(hua)压缩加(jia)速,主要致力(li)于(yu)提(ti)高低比特(te)网络在压缩时(shi)的精度(du),改(gai)善量化(hua)模型在真实应用(yong)场景(jing)下的资源(yuan)消(xiao)耗和计算延迟问题;在ICLR、CVPR等(deng)国际(ji)一(yi)流会(hui)议上发表(biao)学(xue)(xue)术论文6篇。