智东西(公众号:zhidxcom)
文 | Lina

3月9日,由智(zhi)东西主办,极果和(he)AWE联合举办的中国(guo)首场AI芯片峰会在上海浦东成(cheng)功举办。本次大(da)会共吸引(yin)近万名观(guan)众参(can)加,到场人数比(bi)预计(ji)翻(fan)了3倍。即使是(shi)下午场,依然(ran)爆满,有(you)的观(guan)众宁愿站着也要听完(wan)全场。在大(da)会现(xian)场,近40位人工智(zhi)能及AI芯片业(ye)界翘楚共聚(ju)一堂,系统地探讨了AI芯片在2018年的技术前景和(he)产业(ye)趋(qu)势。

清华魏少军:剖析AI芯片两大技术痛点 3年内将现出局者 | GTIC 2018

作为GTIC 2018大(da)会的(de)(de)开场主旨演讲嘉宾、AI芯(xin)片(pian)学术圈(quan)的(de)(de)代(dai)表(biao)人物,清(qing)华(hua)大(da)学微纳(na)电子(zi)(zi)系主任、微电子(zi)(zi)所所长魏少军教授发(fa)表(biao)了主题(ti)为《AI芯(xin)片(pian)发(fa)展需要(yao)应用和架构创新双轮驱动》的(de)(de)演讲,从四大(da)角度剖析了当今AI芯(xin)片(pian)所面(mian)临的(de)(de)挑战、可(ke)能(neng)的(de)(de)解法、对(dui)AI应用与芯(xin)片(pian)架构的(de)(de)思考(kao)等,并分享了清(qing)华(hua)微电子(zi)(zi)所打造(zao)的(de)(de)Thinker系列(lie)AI芯(xin)片(pian)的(de)(de)历程。

清华魏少军:剖析AI芯片两大技术痛点 3年内将现出局者 | GTIC 2018

以(yi)下为(wei)魏少军(jun)教(jiao)授(shou)演讲的要点精析,文后将(jiang)附上(shang)魏少军(jun)教(jiao)授(shou)演讲全文速记+PPT。

一、应用和架构创新是AI芯片的必经之路

目前,AI芯(xin)片(pian)发展面临(lin)着两个(ge)现(xian)(xian)实的(de)问题:一(yi)(yi)(yi)是(shi)人工智(zhi)能(neng)新算法(fa)层出不穷、尚未固(gu)定;二(er)是(shi)现(xian)(xian)在一(yi)(yi)(yi)个(ge)算法(fa)对应(ying)(ying)(ying)一(yi)(yi)(yi)个(ge)应(ying)(ying)(ying)用(yong)(yong),没(mei)有一(yi)(yi)(yi)个(ge)算法(fa)能(neng)够覆盖所(suo)有应(ying)(ying)(ying)用(yong)(yong),也没(mei)有出现(xian)(xian)一(yi)(yi)(yi)个(ge)杀手级的(de)AI应(ying)(ying)(ying)用(yong)(yong)。因(yin)此(ci)相对应(ying)(ying)(ying)的(de),我们现(xian)(xian)在打造AI芯(xin)片(pian)也需(xu)要(yao)解决两大要(yao)素,第一(yi)(yi)(yi)要(yao)这款芯(xin)片(pian)要(yao)适(shi)应(ying)(ying)(ying)算法(fa)的(de)演进,第二(er)要(yao)做(zuo)一(yi)(yi)(yi)个(ge)创(chuang)新的(de)芯(xin)片(pian)架(jia)构(gou),使其(qi)能(neng)够适(shi)应(ying)(ying)(ying)所(suo)有的(de)应(ying)(ying)(ying)用(yong)(yong)。

沿(yan)循着(zhe)打造AI芯片的(de)两大(da)要素思考(kao)下来,一种(zhong)新型的(de)芯片技术被推到了(le)聚光灯(deng)下——“软件定义芯片”,也称可重构计(ji)算。魏少军老师带(dai)领的(de)清华(hua)微(wei)电子所团队在10年前就(jiu)已经开展了(le)这方面的(de)研究(jiu)。

清华魏少军:剖析AI芯片两大技术痛点 3年内将现出局者 | GTIC 2018

“软(ruan)件(jian)(jian)(jian)(jian)定义芯片”顾名思义就是让芯片根(gen)据软(ruan)件(jian)(jian)(jian)(jian)进行(xing)适(shi)应(ying)与(yu)调整,这(zhei)是一(yi)项专(zhuan)用芯片架构(gou)设(she)计(ji)上的(de)创新,简单来说就是将(jiang)软(ruan)件(jian)(jian)(jian)(jian)通(tong)过不同的(de)管道输(shu)送到(dao)硬件(jian)(jian)(jian)(jian)中来执行(xing)功能(neng),使得(de)芯片能(neng)够实时地根(gen)据软(ruan)件(jian)(jian)(jian)(jian)/产品的(de)需求(qiu)改变功能(neng),实现更加灵活的(de)芯片设(she)计(ji)。硬件(jian)(jian)(jian)(jian)跟着软(ruan)件(jian)(jian)(jian)(jian)不断变化,既能(neng)适(shi)应(ying)算法的(de)演进,又(you)能(neng)适(shi)应(ying)多个不同应(ying)用。

去年(nian)的时候,由(you)美国(guo)国(guo)防部(bu)先进计划(hua)署(DARPA)推动的电子(zi)产业振兴计划(hua)(ERI)针对后摩尔定律(post-Moore’s-law)时代的新材(cai)料、架构与设计流程,其中一个课(ke)题(ti)就是软(ruan)件定义硬(ying)件(software define hardware)。

二、打造超低功耗AI芯片Thinker系列

前年,一(yi)个偶然的(de)机会(hui),依照可(ke)重构计(ji)算(suan)(suan)芯(xin)片(pian)(pian)(pian)的(de)框架,魏(wei)少(shao)军教(jiao)授(shou)团(tuan)队中的(de)尹首(shou)一(yi)副(fu)教(jiao)授(shou)带队设计(ji)研发了一(yi)款代号为Thinker 1的(de)可(ke)重构混合神经网(wang)(wang)络计(ji)算(suan)(suan)芯(xin)片(pian)(pian)(pian)。这款芯(xin)片(pian)(pian)(pian)不仅可(ke)以动态地调整计(ji)算(suan)(suan)和内存需求,使得芯(xin)片(pian)(pian)(pian)能够支持(chi)人脸识别(bie)和语(yu)音识别(bie)的(de)神经网(wang)(wang)络应用,而且(qie)芯(xin)片(pian)(pian)(pian)的(de)功耗非常小。

清华魏少军:剖析AI芯片两大技术痛点 3年内将现出局者 | GTIC 2018

▲清华(hua)大学微电子所提(ti)供的(de)Thinker芯片(pian)的(de)显微照片(pian)

Thinker 1不(bu)仅在AI性能与算法(fa)通用性上(shang)取(qu)得(de)(de)(de)了突(tu)破性的(de)进展,还获(huo)得(de)(de)(de)了学(xue)术界的(de)重要认可(ke),在2017 ACM/IEEE ISLPED国(guo)际低功耗电子学(xue)与设计会议上(shang),Thinker1获(huo)得(de)(de)(de)了设计竞赛(sai)奖,这(zhei)是中(zhong)国(guo)大陆(lu)单位(wei)首次以第一完成单位(wei)获(huo)得(de)(de)(de)此(ci)奖项。

清华魏少军:剖析AI芯片两大技术痛点 3年内将现出局者 | GTIC 2018

Thinker 1是(shi)一(yi)块(kuai)实验性质的验证芯片,随(sui)后,可重构计算(suan)团队又打(da)造了(le)两款Thinker系(xi)列芯片,分别(bie)(bie)为Thinker 2人脸(lian)识(shi)别(bie)(bie)芯片,能(neng)够做到超低(di)功耗的6ms人脸(lian)识(shi)别(bie)(bie);以及(ji)Thinker S语(yu)音识(shi)别(bie)(bie)芯片功耗则(ze)更(geng)低(di),只有0.3毫瓦(wa)。这(zhei)系(xi)列芯片在国际(ji)上广(guang)受(shou)好评,获得(de)了(le)众多奖项(xiang)。

三、AI芯片2-3年内出现先烈

在演讲的最后,魏少(shao)军教(jiao)授分享了几项总结与思考(kao):

1、应(ying)用领(ling)(ling)域(yu)的(de)(de)(de)确(que)(que)立是AI领(ling)(ling)域(yu)的(de)(de)(de)确(que)(que)立前提,但是AI的(de)(de)(de)杀手级应(ying)用还没有出现,因此AI发展有很长的(de)(de)(de)路要走。

2、未来能(neng)否出现像通用CPU这(zhei)样独立(li)存(cun)在的(de)通用AI处理器(qi)?如果存(cun)在的(de)话,它的(de)架构是什么样,如果不(bu)存(cun)在,如今的(de)AI芯(xin)片(pian)公(gong)司又该何去何从?

3、2到(dao)3年内,AI芯片行业将会碰到(dao)一个低潮,今天(tian)的(de)一部分(fen)(fen)、甚至大部分(fen)(fen)的(de)创业者成为技术变革的(de)先(xian)烈。

附:以下为魏少军教授演讲《AI芯片发展需要应用和架构创新双轮驱动》全文速记

魏少(shao)军:大家上(shang)(shang)午好,感谢主办方给(ji)我(wo)(wo)个(ge)机会介(jie)绍我(wo)(wo)们(men)的(de)(de)工(gong)(gong)作。主持人说我(wo)(wo)们(men)是做人工(gong)(gong)智(zhi)能芯(xin)(xin)(xin)片,错了,我(wo)(wo)是做芯(xin)(xin)(xin)片设(she)计(ji)的(de)(de),研究芯(xin)(xin)(xin)片的(de)(de)设(she)计(ji)和(he)理论。两年前我(wo)(wo)们(men)用前些(xie)(xie)年的(de)(de)研究成果尝试做了一些(xie)(xie)AI芯(xin)(xin)(xin)片,结果效果不错。后(hou)来我(wo)(wo)们(men)在(zai)国际上(shang)(shang)连续发表了一些(xie)(xie)有(you)影响力的(de)(de)论文,有(you)些(xie)(xie)结果被(bei)一些(xie)(xie)引用,突然发现我(wo)(wo)自己成了AI芯(xin)(xin)(xin)片的(de)(de)专家,其(qi)实不是。今天(tian)(tian)我(wo)(wo)跟(gen)大家做一些(xie)(xie)沟通,主要希望提出(chu)一些(xie)(xie)可能跟(gen)在(zai)座(zuo)的(de)(de)大佬们(men)不太一样(yang)的(de)(de)观点(dian),供大家批判和(he)产(chan)生共鸣。我(wo)(wo)观点(dian)中如果有(you)冒(mao)犯在(zai)座(zuo)各位,请大家务(wu)必原谅。既(ji)然是双轮驱动,那就不是一个(ge)事情,我(wo)(wo)们(men)今天(tian)(tian)谈(tan)四个(ge)方面的(de)(de)内容(rong)。

清华魏少军:剖析AI芯片两大技术痛点 3年内将现出局者 | GTIC 2018

一(yi)(yi)(yi)、集成电路芯(xin)片是(shi)实(shi)现人(ren)工(gong)(gong)智能的(de)(de)当然(ran)载体(ti)。AI其实(shi)在(zai)(zai)50年(nian)代(dai)(dai)出(chu)现过,经(jing)过30年(nian)的(de)(de)发(fa)展(zhan)后(hou)转(zhuan)移(yi)到机(ji)器学(xue)(xue)习、再(zai)经(jing)过30年(nian)发(fa)展(zhan)到了(le)深(shen)度学(xue)(xue)习。现在(zai)(zai)看(kan)深(shen)度学(xue)(xue)习是(shi)人(ren)工(gong)(gong)智能的(de)(de)主(zhu)要内容,但其实(shi)深(shen)度学(xue)(xue)习只是(shi)人(ren)工(gong)(gong)智能一(yi)(yi)(yi)个(ge)(ge)窄面,之(zhi)所以深(shen)度学(xue)(xue)习作为了(le)主(zhu)要内容,一(yi)(yi)(yi)个(ge)(ge)原(yuan)因就是(shi)前年(nian)和去年(nian)AlphaGo下棋赢了(le)人(ren)类(lei)高手。而(er)在(zai)(zai)这(zhei)个(ge)(ge)标志(zhi)事件之(zhi)前,早在(zai)(zai)2011年(nian)就进(jin)行过一(yi)(yi)(yi)个(ge)(ge)游戏比(bi)赛,其实(shi)比(bi)AlphaGo更(geng)有代(dai)(dai)表性,当然(ran)可能不一(yi)(yi)(yi)定大家同意我(wo)的(de)(de)观(guan)点(dian)。(2011年(nian),IBM公司的(de)(de)Watson计算机(ji)参加综艺节目(mu)危险边缘(yuan)Jeopardy,前两轮(lun)与对手打平,而(er)在(zai)(zai)最后(hou)一(yi)(yi)(yi)轮(lun)中,Watson打败了(le)最高奖金(jin)得主(zhu)布拉德·鲁特尔和连胜纪录保持者(zhe)肯·詹宁斯。)我(wo)们(men)仔细分析两者(zhe)的(de)(de)比(bi)赛的(de)(de)过程,大家会发(fa)现,(这(zhei)场比(bi)赛)高于AlphaGo,只是(shi)它(ta)不够时(shi)尚而(er)已。

中(zhong)文有时候比较宽泛一些,“智(zhi)(zhi)能(neng)(neng)(neng)”包含“智(zhi)(zhi)慧(hui)”和“能(neng)(neng)(neng)力”,我们多数(shu)智(zhi)(zhi)慧(hui)的东(dong)西(xi)不是能(neng)(neng)(neng)力。人工智(zhi)(zhi)能(neng)(neng)(neng)这个词(ci)有问题,不清楚,英文叫人工智(zhi)(zhi)慧(hui)(Artificial Intelligence),不讲人工智(zhi)(zhi)能(neng)(neng)(neng)两者(zhe)结(jie)合在一起(qi)。

清华魏少军:剖析AI芯片两大技术痛点 3年内将现出局者 | GTIC 2018

芯(xin)(xin)(xin)片(pian)是实现AI的(de)当然载(zai)体,无论是CPU、GPU、还是CPU加FPGA,或者其(qi)它出现的(de)多个芯(xin)(xin)(xin)片(pian)平台,所有这些东(dong)西都离不开芯(xin)(xin)(xin)片(pian)。所以讲一(yi)句(ju)话,无芯(xin)(xin)(xin)片(pian)不AI,做AI一(yi)定要有芯(xin)(xin)(xin)片(pian),芯(xin)(xin)(xin)片(pian)是不可(ke)或缺(que)的(de)基本内容。

既然人工(gong)智能(neng)芯片如此重要,那么怎(zen)么实(shi)现它?这里面我可能(neng)跟在场(chang)的(de)(de)嘉宾观点(dian)不太一(yi)(yi)样。我们先说AI面临(lin)两个现实(shi)的(de)(de)问(wen)题:第一(yi)(yi)、算法(fa)仍在不断演进(jin),新算法(fa)层出不穷;第二、一(yi)(yi)种算法(fa)对应一(yi)(yi)种应用(yong),没有统一(yi)(yi)的(de)(de)算法(fa)。(对于芯片来说)你希望找到(dao)一(yi)(yi)个架构(gou)能(neng)够(gou)适应所有算法(fa),而(er)不是(shi)一(yi)(yi)个应用(yong)做一(yi)(yi)个芯片。

现在的(de)(de)(de)(de)应(ying)用复杂程度(du)不一(yi)样,但无一(yi)例(li)外都(dou)使用的(de)(de)(de)(de)是一(yi)个(ge)(ge)专用的(de)(de)(de)(de)神(shen)经网络(luo),在这(zhei)样的(de)(de)(de)(de)情(qing)况(kuang),我(wo)(wo)们(men)需(xu)(xu)要(yao)在芯片当中实现一(yi)个(ge)(ge)具(ju)备(bei)深度(du)学习能力的(de)(de)(de)(de)引(yin)(yin)擎(qing)。我(wo)(wo)们(men)今天(tian)的(de)(de)(de)(de)深度(du)学习需(xu)(xu)要(yao)的(de)(de)(de)(de)计算(suan)(suan)量和参数量是非常大的(de)(de)(de)(de)数字。以前我(wo)(wo)们(men)很(hen)少(shao)的(de)(de)(de)(de)运算(suan)(suan)量就可以完成一(yi)些小工(gong)作(zuo),参数有10万个(ge)(ge)就很(hen)多(duo)了;但是到了2017年,我(wo)(wo)们(men)做(zuo)到17层(ceng)的(de)(de)(de)(de)神(shen)经网络(luo)做(zuo)每(mei)秒196亿(yi)次的(de)(de)(de)(de)运算(suan)(suan),有1.38亿(yi)个(ge)(ge)参数。我(wo)(wo)们(men)需(xu)(xu)要(yao)一(yi)个(ge)(ge)好的(de)(de)(de)(de)计算(suan)(suan)引(yin)(yin)擎(qing),没有好的(de)(de)(de)(de)计算(suan)(suan)引(yin)(yin)擎(qing)我(wo)(wo)们(men)完成不了这(zhei)些运算(suan)(suan)工(gong)作(zuo)。

二、在这个情(qing)况下,我(wo)们看(kan)看(kan)AI芯片(pian)需(xu)要(yao)(yao)(yao)(yao)(yao)什么样的(de)(de)(de)计(ji)(ji)算(suan)(suan)要(yao)(yao)(yao)(yao)(yao)素(su)?它第(di)一要(yao)(yao)(yao)(yao)(yao)适应算(suan)(suan)法的(de)(de)(de)演进(jin),第(di)二我(wo)们要(yao)(yao)(yao)(yao)(yao)做一个架(jia)(jia)(jia)构(gou)(gou)适应所有(you)的(de)(de)(de)应用,就(jiu)是架(jia)(jia)(jia)构(gou)(gou)的(de)(de)(de)可变性,高效的(de)(de)(de)架(jia)(jia)(jia)构(gou)(gou)变换能(neng)(neng)力。此外(wai)我(wo)们还(hai)要(yao)(yao)(yao)(yao)(yao)关注计(ji)(ji)算(suan)(suan)量(liang)和(he)计(ji)(ji)算(suan)(suan)能(neng)(neng)效。计(ji)(ji)算(suan)(suan)能(neng)(neng)效要(yao)(yao)(yao)(yao)(yao)求(qiu)是多少?大概每(mei)瓦10 Tflops,即每(mei)秒完成(cheng)10万(wan)亿次的(de)(de)(de)运算(suan)(suan)。并且某些(xie)应用功耗需(xu)要(yao)(yao)(yao)(yao)(yao)低于1mW,有(you)些(xie)应用需(xu)要(yao)(yao)(yao)(yao)(yao)识(shi)别速(su)度(du)大于25fps、而且芯片(pian)体(ti)积小(xiao),达到低成(cheng)本进(jin)入家(jia)电(dian)和(he)消费(fei)电(dian)子,配在装备上,同(tong)时开发需(xu)要(yao)(yao)(yao)(yao)(yao)简易(yi),一个人开发芯片(pian)设计(ji)(ji)难度(du)很大。因(yin)此,我(wo)们需(xu)要(yao)(yao)(yao)(yao)(yao)探索架(jia)(jia)(jia)构(gou)(gou)上的(de)(de)(de)创新。

接着(zhe)我们(men)谈(tan)到(dao),应用和架构创(chuang)新是发(fa)展(zhan)应用创(chuang)新的必(bi)由(you)之路。

今天(tian)的(de)AI应用(yong)涵(han)盖了所(suo)有(you)(you)方(fang)面,无(wu)行业(ye)不AI,包括人(ren)(ren)脸识(shi)别、语(yu)音识(shi)别、机器翻译等(deng)(deng)等(deng)(deng)。我(wo)们看到屏幕(mu)上已经做到了即时的(de)传(chuan)译、无(wu)人(ren)(ren)驾(jia)驶、智能(neng)陪伴(ban)、能(neng)源、农业(ye)、或者(zhe)生(sheng)产(chan),似(si)乎(hu)AI涵(han)盖了我(wo)们生(sheng)活各(ge)个方(fang)面,这是给(ji)我(wo)们一(yi)个很重(zhong)要(yao)的(de)印(yin)象。但(dan)是我(wo)想(xiang)问几个问题:哪些(xie)应用(yong)需要(yao) AI?我(wo)们希望AI帮忙解决什么问题?什么是AI的(de)“杀(sha)手级”应用(yong)?什么样的(de)AI应用(yong)是我(wo)们每天(tian)都(dou)需要(yao)的(de)?……我(wo)觉(jue)得这些(xie)问题到今天(tian)为止(zhi)都(dou)没有(you)(you)答案,有(you)(you)些(xie)东西好(hao)像是AI,但(dan)是实际上并不是AI。

我(wo)(wo)(wo)给(ji)大家(jia)说一(yi)个笑话,今(jin)年是(shi)我(wo)(wo)(wo)本(ben)命年,我(wo)(wo)(wo)想买一(yi)条(tiao)红围巾(jin)。我(wo)(wo)(wo)在(zai)网上搜了一(yi)下(xia)没买,然后(hou)在(zai)我(wo)(wo)(wo)的(de)(de)手机上的(de)(de)各种文(wen)件中不断(duan)出现(xian)红围巾(jin)的(de)(de)广告(gao),让我(wo)(wo)(wo)感(gan)觉非常烦(fan)。它具备(bei)AI的(de)(de)性(xing)能,但是(shi)这个AI不是(shi)我(wo)(wo)(wo)需(xu)(xu)要的(de)(de)帮助。回想几年以(yi)前,(你在(zai))买一(yi)个台灯之后(hou),网页上就不断(duan)出现(xian)台灯的(de)(de)广告(gao),今(jin)天的(de)(de)AI还没有(you)达到(dao)我(wo)(wo)(wo)们所(suo)需(xu)(xu)要的(de)(de)程度(du)。

三、应用和(he)(he)架(jia)构创(chuang)新是发展人工(gong)智能芯(xin)片的(de)(de)(de)(de)必由之路(lu)。做应用确实很难。我们做芯(xin)片的(de)(de)(de)(de)人一(yi)直想架(jia)构是什么,架(jia)构创(chuang)新很重要(yao),从(cong)感知(zhi)、传输到中间的(de)(de)(de)(de)处理,一(yi)直到后面的(de)(de)(de)(de)传输和(he)(he)执行(xing),都不(bu)开的(de)(de)(de)(de)基本(ben)架(jia)构。反之大家知(zhi)道这(zhei)是一(yi)个传感器(qi),通过执行(xing)器(qi),传输中间有很发散的(de)(de)(de)(de)网络,基本(ben)的(de)(de)(de)(de)逻(luo)辑在这(zhei)里(li)。

清华魏少军:剖析AI芯片两大技术痛点 3年内将现出局者 | GTIC 2018

智慧(hui)处理(li)的(de)根本(ben)架构是什么(me)?我们(men)不知(zhi)道(dao)(dao)。因为我们(men)不知(zhi)道(dao)(dao)人怎么(me)想问题,大概是什么(me)样的(de)结构,只能按照系统(tong)(tong)、软(ruan)件、处理(li)器(qi)、存储这么(me)来模(mo)仿。毫无疑问我们(men)碰到的(de)都是多(duo)输(shu)入、多(duo)输(shu)出的(de)系统(tong)(tong)、多(duo)任(ren)务、高度并行化的(de)运行系统(tong)(tong),

听着(zhe)很有(you)道理,但(dan)是(shi)我(wo)通过一(yi)(yi)(yi)个(ge)简(jian)单人类处理事情的流(liu)程举例,我(wo)们碰到(dao)一(yi)(yi)(yi)个(ge)事情,这(zhei)个(ge)事情很多特征,比如我(wo)第一(yi)(yi)(yi)个(ge)看(kan)(kan)到(dao)这(zhei)个(ge)人,我(wo)看(kan)(kan)看(kan)(kan)他长什(shen)么样子,我(wo)认(ren)识不认(ren)识他?我(wo)不认(ren)识他、没见过他怎么办(ban),我(wo)要认(ren)识一(yi)(yi)(yi)下(xia)。我(wo)们握手交换一(yi)(yi)(yi)下(xia)名片,看(kan)(kan)你(ni)是(shi)在哪个(ge)单位、什(shen)么地方、加深一(yi)(yi)(yi)下(xia)印象。

清华魏少军:剖析AI芯片两大技术痛点 3年内将现出局者 | GTIC 2018

也有可(ke)能(neng)我们第一(yi)次见过,没有交(jiao)换名片,我们认(ren)识(shi)的(de)(de)时候(hou)就知(zhi)道又见面了。在这(zhei)(zhei)(zhei)个过程(cheng)我们不(bu)断重复这(zhei)(zhei)(zhei)个内容(rong)(rong),有可(ke)能(neng)在中间出现偏差我不(bu)认(ren)识(shi)他,我要(yao)认(ren)识(shi)这(zhei)(zhei)(zhei)个人(ren),就需要(yao)把我的(de)(de)知(zhi)识(shi)重新提升(sheng)一(yi)下(xia),这(zhei)(zhei)(zhei)个不(bu)断重复的(de)(de)过程(cheng)涉及大量(liang)(liang)内容(rong)(rong),需要(yao)大量(liang)(liang)计算(suan)。

计(ji)(ji)(ji)算(suan)无处不(bu)(bu)在,计(ji)(ji)(ji)算(suan)本身是我(wo)们架构基本前提,没有(you)好(hao)(hao)的计(ji)(ji)(ji)算(suan)量不(bu)(bu)要提,GPU因为有(you)很好(hao)(hao)的计(ji)(ji)(ji)算(suan)量,别(bie)人赶不(bu)(bu)上它。但是由于计(ji)(ji)(ji)算(suan)非(fei)常(chang)丰富(fu),我(wo)们不(bu)(bu)知(zhi)道人脑(nao)怎么完全计(ji)(ji)(ji)算(suan),因此我(wo)们只好(hao)(hao)通过这种(zhong)我(wo)们知(zhi)道的方式,构建一个所谓能(neng)(neng)够具(ju)备智慧处理能(neng)(neng)力的芯片,一个是智能(neng)(neng)的软件和硬(ying)件。

智(zhi)能软(ruan)件(jian)包含(han)这几方面的(de)(de)(de)内容:形成知识能力、组织能力、思(si)维推(tui)理(li)能力。这些东西不是(shi)(shi)(shi)芯(xin)(xin)片(pian)(pian)做的(de)(de)(de),是(shi)(shi)(shi)软(ruan)件(jian)做的(de)(de)(de)。我们(men)(men)可(ke)以(yi)看到(dao)芯(xin)(xin)片(pian)(pian)更多地是(shi)(shi)(shi)提供(gong)计算(suan)的(de)(de)(de)平台(tai)、多任务并行的(de)(de)(de)能力、极高的(de)(de)(de)能效(xiao)、和灵活高效(xiao)的(de)(de)(de)存储(chu)与实时动(dong)态(tai)能力。因此我们(men)(men)经常说,实现智(zhi)能的(de)(de)(de)核心其(qi)实是(shi)(shi)(shi)软(ruan)件(jian)不是(shi)(shi)(shi)芯(xin)(xin)片(pian)(pian),芯(xin)(xin)片(pian)(pian)不过是(shi)(shi)(shi)支撑智(zhi)能的(de)(de)(de)基础而已。我们(men)(men)要改变一些思(si)路,就(jiu)是(shi)(shi)(shi)我们(men)(men)做芯(xin)(xin)片(pian)(pian)的(de)(de)(de)人(ren)、特别是(shi)(shi)(shi)做AI芯(xin)(xin)片(pian)(pian)的(de)(de)(de)人(ren),要把软(ruan)件(jian)放在足够高的(de)(de)(de)位置来看。

因此(ci)我们希(xi)望在(zai)这(zhei)种情况下,硬件(jian)(jian)(jian)(jian)可(ke)(ke)以跟(gen)着(zhe)软(ruan)(ruan)件(jian)(jian)(jian)(jian)不(bu)(bu)断变化,也(ye)就是(shi)所(suo)谓(wei)“软(ruan)(ruan)件(jian)(jian)(jian)(jian)定(ding)义芯片(pian)”的(de)(de)(de)概(gai)(gai)念。(如果你说)芯片(pian)不(bu)(bu)能被软(ruan)(ruan)件(jian)(jian)(jian)(jian)定(ding)义,那你是(shi)做不(bu)(bu)好。这(zhei)个(ge)概(gai)(gai)念我们在(zai)10年(nian)提(ti)出来了,但是(shi)阳春白雪(xue),知道的(de)(de)(de)人不(bu)(bu)多。由美国(guo)国(guo)防(fang)部先(xian)进计(ji)划署(DARPA)推动(dong)的(de)(de)(de)电子产业振(zhen)兴(xing)计(ji)划(ERI)针(zhen)对(dui)后摩尔定(ding)律(post-Moore’s-law)时代的(de)(de)(de)新(xin)材料、架构与设(she)计(ji)流程,在(zai)科技领域寻求突破,每(mei)一(yi)(yi)个(ge)方(fang)向上设(she)置(zhi)2个(ge)课题,去年(nian)其中一(yi)(yi)个(ge)课题就是(shi)软(ruan)(ruan)件(jian)(jian)(jian)(jian)定(ding)义硬件(jian)(jian)(jian)(jian)(software define hardware)的(de)(de)(de)概(gai)(gai)念,我把它中间一(yi)(yi)段话摘(zhai)出来:打造可(ke)(ke)实时重新(xin)配置(zhi)的(de)(de)(de)软(ruan)(ruan)件(jian)(jian)(jian)(jian)和(he)硬件(jian)(jian)(jian)(jian),使(shi)其具备ASIC的(de)(de)(de)性能表现(xian),但不(bu)(bu)必(bi)在(zai)数据密(mi)集计(ji)算中牺(xi)牲可(ke)(ke)编程性。也(ye)就是(shi)说让硬件(jian)(jian)(jian)(jian)的(de)(de)(de)功能和(he)架构跟(gen)着(zhe)软(ruan)(ruan)件(jian)(jian)(jian)(jian)实时变化,而(er)所(suo)谓(wei)的(de)(de)(de)实时所(suo)谓(wei)的(de)(de)(de)即时指的(de)(de)(de)是(shi)运行300~1000纳秒内(nei)。我只能笑一(yi)(yi)笑,这(zhei)个(ge)工作我们10年(nian)前(qian)就已(yi)经在(zai)做,走在(zai)美国(guo)同行的(de)(de)(de)前(qian)面。

大(da)家说,软件定义芯片也(ye)没有很(hen)奇怪,FPGA早就可以做了。其实(shi)FPGA也(ye)不(bu)行。第(di)一就是(shi)细粒(li)度,由于要(yao)(yao)实(shi)现比特级的运(yun)算,运(yun)算颗(ke)粒(li)度必须(xu)为细粒(li)度。FPGA颗(ke)粒(li)度是(shi)细力度,所以配(pei)置(zhi)信(xin)息(xi)量(liang)非(fei)常大(da),需(xu)(xu)要(yao)(yao)几(ji)(ji)兆到(dao)十(shi)几(ji)(ji)兆字节,需(xu)(xu)要(yao)(yao)十(shi)几(ji)(ji)毫秒甚(shen)至更(geng)长(zhang)时间。同时一旦(dan)配(pei)置(zhi)完毕(bi),不(bu)可更(geng)改。如果要(yao)(yao)改变FPGA的功能(neng),只能(neng)下电或在线重新载入(ru)配(pei)置(zhi)信(xin)息(xi)。FPGA的芯片面(mian)积效率(lv)很(hen)低(di),只有5%,千(qian)万面(mian)积的FPGA实(shi)现几(ji)(ji)十(shi)万,能(neng)量(liang)效率(lv)很(hen)低(di),而(er)且功耗很(hen)大(da)。同时FPGA需(xu)(xu)要(yao)(yao)非(fei)常先(xian)进的工艺(yi),且需(xu)(xu)对工艺(yi)进行特别调整,应用者还必须(xu)具备电路设(she)计知识(shi)和经(jing)验。最后就是(shi)FPGA成本非(fei)常高。

FPGA可以用来做一个简单的验证(zheng)系统(tong),但是(shi)实用系统(tong)?对(dui)不(bu)起恐怕很(hen)难,所以我(wo)们说FPGA无法承担(dan)软(ruan)件定义芯片(Software defines Chip,SdC)的任(ren)务(wu)。那么什么样的系统(tong)可以完(wan)成(cheng)SdC?

清华魏少军:剖析AI芯片两大技术痛点 3年内将现出局者 | GTIC 2018

我们从(cong)架构(gou)上去考虑(lv),如果(guo)我们像右边这(zhei)样(yang)(yang),给出一(yi)个(ge)和软件(jian)完全(quan)一(yi)致(zhi)的(de)硬件(jian)结构(gou),没有考虑(lv)硬件(jian)本(ben)身的(de)开销(xiao),这(zhei)样(yang)(yang)的(de)计算效率(lv)一(yi)定是(shi)(shi)最高,毋庸置疑。可软件(jian)可以无穷(qiong)大,硬件(jian)总是(shi)(shi)有边界的(de)。

清华魏少军:剖析AI芯片两大技术痛点 3年内将现出局者 | GTIC 2018

但如果我们(men)把软件(jian)分(fen)成(cheng)若干块(kuai)(kuai),一块(kuai)(kuai)一块(kuai)(kuai)搬过去,第一块(kuai)(kuai)运(yun)行完了(le)以后,执行第二个(ge)模(mo)块(kuai)(kuai),然后第三个(ge)模(mo)块(kuai)(kuai)搬过去,回来计算第四个(ge)、第五(wu)个(ge)、第六完成(cheng)这(zhei)样。这(zhei)要求(qiu)我们(men)的(de)(de)硬件(jian)结(jie)构和功(gong)能必须(xu)是动态的(de)(de),随时可(ke)以改变的(de)(de)。这(zhei)就是软件(jian)定义芯(xin)片的(de)(de)基本概念。

至(zhi)于(yu)工作难点(dian)则(ze)是(shi)(shi)(shi)怎么(me)很快的实(shi)现它?我(wo)们过去10年(nian)当中(zhong)的努力就是(shi)(shi)(shi)解(jie)决这(zhei)个问题,图里的计(ji)算架构(gou)是(shi)(shi)(shi)非常经典(dian)的架构(gou),我(wo)们可以看到这(zhei)两者一个是(shi)(shi)(shi)所谓控制单元划分的内容,逐步送进去执行,要(yao)求(qiu)根(gen)据要(yao)求(qiu)配置计(ji)算单位(wei)并且完成执行。

清华魏少军:剖析AI芯片两大技术痛点 3年内将现出局者 | GTIC 2018

问题(ti)是(shi)(shi)(shi),要出现完(wan)全可(ke)重(zhong)构(gou)的(de)(de)(de)数(shu)据通道(dao)和可(ke)完(wan)成变(bian)成的(de)(de)(de)控制单(dan)位,这样(yang)做到可(ke)变(bian)化的(de)(de)(de)。这与传统结构(gou)是(shi)(shi)(shi)有差别,我(wo)们拿经典(dian)的(de)(de)(de)计算模式做了(le)一个比较(jiao),它是(shi)(shi)(shi)弓形(xing)的(de)(de)(de),可(ke)传播计算是(shi)(shi)(shi)函性(xing)的(de)(de)(de)。经典(dian)架(jia)构(gou)当中,软件(jian)硬(ying)件(jian)不(bu)变(bian),而在(zai)我(wo)们现在(zai)的(de)(de)(de)架(jia)构(gou)当中,硬(ying)件(jian)和软件(jian)都在(zai)做动态的(de)(de)(de)选择性(xing)的(de)(de)(de)改(gai)变(bian),经典(dian)架(jia)构(gou)用高度复用的(de)(de)(de)方式,降低它的(de)(de)(de)成本,而在(zai)我(wo)们这边是(shi)(shi)(shi)冗余应(ying)用。

至于(yu)我(wo)们(men)是(shi)不是(shi)改变(bian)(bian)的计(ji)算(suan)模式,很遗憾告诉大(da)家,我(wo)们(men)还是(shi)在冯诺伊曼架(jia)(jia)构(gou)当中。有(you)些人我(wo)说(shuo)我(wo)们(men)改变(bian)(bian)了模式,我(wo)做出了新型的计(ji)算(suan)架(jia)(jia)构(gou),其实我(wo)说(shuo),你没有(you)弄明白。

在(zai)这样(yang)的架构之(zhi)下(xia),我们(men)实现AI芯片(pian)的时候,可以(yi)把硬(ying)件按(an)照AI的算(suan)法来(lai)不停的变(bian)换,以(yi)达到最(zui)佳的计算(suan)效率(lv),大家(jia)可以(yi)看到最(zui)下(xia)面这块,我们(men)从AI的应用定(ding)义采用深度神经(jing)网络,再(zai)来(lai)决定(ding)硬(ying)件的功(gong)能,这样(yang)的结构我们(men)认为是一(yi)个(ge)最(zui)佳的方式。(两年前)我们(men)在(zai)无意(yi)当中决定(ding)尝试一(yi)下(xia),构建(jian)一(yi)个(ge)AI芯片(pian)叫做(zuo)“思(si)考者(Thinker)”。

清华魏少军:剖析AI芯片两大技术痛点 3年内将现出局者 | GTIC 2018

大(da)家可以看到左边有一(yi)个(ge)阵列,有两(liang)种(zhong)PE,一(yi)种(zhong)是通(tong)用的(de)(de)(de)(de),一(yi)个(ge)是超级(ji)的(de)(de)(de)(de),代表不同的(de)(de)(de)(de)计(ji)算(suan)内容(rong),包括卷积(ji)的(de)(de)(de)(de)计(ji)算(suan),还(hai)(hai)有全理解的(de)(de)(de)(de)计(ji)算(suan),还(hai)(hai)有池化(hua)等等。通(tong)过(guo)定义的(de)(de)(de)(de)方式,这块芯片把每个(ge)PE方式进行随时定义,再(zai)传输到往(wang)来网络运算(suan)/我(wo)们还(hai)(hai)可以把阵列上(shang)的(de)(de)(de)(de)众多的(de)(de)(de)(de)PE,通(tong)过(guo)定义的(de)(de)(de)(de)方式不断(duan)滴改变不同的(de)(de)(de)(de)层面的(de)(de)(de)(de)计(ji)算(suan)内容(rong),也可以大(da)大(da)提(ti)升系(xi)统的(de)(de)(de)(de)能效。

清华魏少军:剖析AI芯片两大技术痛点 3年内将现出局者 | GTIC 2018

在过去2、3年(nian)当中,我们(延循着软件定(ding)义(yi)芯(xin)片(pian)的(de)(de)技(ji)术(shu))做出了AI芯(xin)片(pian),在去年(nian)的(de)(de)ACM上做了相(xiang)关的(de)(de)介(jie)绍(shao),Thinker S也在MIT得到(dao)了很好的(de)(de)报道。Thinker 2做人脸识别的(de)(de)只需要6个(ge)毫秒,功(gong)(gong)耗极低,Thinker S的(de)(de)功(gong)(gong)耗则只有0.3个(ge)毫瓦。这块芯(xin)片(pian)获得了很多(duo)专利、(发表了)很多(duo)的(de)(de)论文、并且得到(dao)多(duo)个(ge)奖项(xiang)。

清华魏少军:剖析AI芯片两大技术痛点 3年内将现出局者 | GTIC 2018

我把跟AI的(de)(de)相关的(de)(de)内(nei)容都(dou)用(yong)红线画(hua)出来了,基本在(zai)曲线的(de)(de)第(di)一个风波上。我们(men)现在(zai)的(de)(de)AI太热了,有时媒体也起了不太好的(de)(de)作用(yong)。

清华魏少军:剖析AI芯片两大技术痛点 3年内将现出局者 | GTIC 2018

最(zui)后,我(wo)想总结一(yi)下,提(ti)几个问(wen)题:1、应用领域(yu)(yu)的(de)(de)(de)(de)确立(li)是(shi)(shi)(shi)AI领域(yu)(yu)的(de)(de)(de)(de)确立(li)前提(ti),但是(shi)(shi)(shi)AI的(de)(de)(de)(de)杀手级应用还没有出现,因此我(wo)们说AI的(de)(de)(de)(de)发(fa)展有很(hen)长的(de)(de)(de)(de)路要走。2、能否(fou)出现像通(tong)(tong)用CPU这(zhei)样(yang)独立(li)存(cun)在的(de)(de)(de)(de)通(tong)(tong)用AI处(chu)理器?如果存(cun)在的(de)(de)(de)(de)话,它的(de)(de)(de)(de)架构是(shi)(shi)(shi)什么样(yang),如果不存(cun)在,我(wo)们今天(tian)的(de)(de)(de)(de)已(yi)满足特定应用的(de)(de)(de)(de)芯片恐怕只(zhi)能做IP核了,我(wo)们AI公司何去何从呢?这(zhei)些问(wen)题留个企(qi)业家(jia)们思考。可(ke)能大家(jia)不同意我(wo)的(de)(de)(de)(de)观(guan)点,但是(shi)(shi)(shi)2到(dao)3年(nian)内(AI芯片行业)一(yi)定会碰到(dao)一(yi)个低潮,今天(tian)的(de)(de)(de)(de)一(yi)部(bu)分(fen)(fen)、甚(shen)至大部(bu)分(fen)(fen)的(de)(de)(de)(de)创业者(zhe)成为技(ji)术(shu)变革的(de)(de)(de)(de)先烈。对不起。(观(guan)众笑)但是(shi)(shi)(shi)毫无疑问(wen),这(zhei)将(jiang)是(shi)(shi)(shi)AI芯片发(fa)展中,最(zui)令人钦佩、也最(zui)令人动容的(de)(de)(de)(de)伟(wei)大事(shi)件。谢谢大家(jia)!

清华魏少军:剖析AI芯片两大技术痛点 3年内将现出局者 | GTIC 2018