智东西(公众号:zhidxcom)
文 | 心缘
智东(dong)西6月(yue)27日消(xiao)息,最近,脱胎于清华大学微电子所Thinker团队的(de)AI芯片创企清微智能迎来新(xin)进(jin)展:
全(quan)球(qiu)首款可重构超低功耗语音人(ren)工智能(AI)芯片TX210已(yi)实现规模(mo)化量产,于6月中旬正式交(jiao)付市(shi)场,而(er)此(ci)时清微智能距成立(li)还不到1年。
这是一款(kuan)语音(yin)SoC芯片(pian),针对手机(ji)、可穿戴设备、智能(neng)家居等多(duo)种(zhong)应用场景的智能(neng)终端产品(pin)开发,工作功(gong)耗(hao)不超过2mW,语音(yin)活动检测(ce)(VAD)功(gong)耗(hao)小于100uW,延时不到10ms。
清(qing)微智能(neng),拆开来,就是(shi)清(qing)华、微电子、人工智能(neng),也就代(dai)表了这家公司(si)的(de)定位——专(zhuan)注可重构计算芯片,提(ti)供以端侧为基础,并(bing)向云侧延(yan)伸的(de)芯片产品及解决方案。
其核心技(ji)术(shu)团(tuan)队来自清华(hua)微(wei)电(dian)子(zi)学研究所(suo)(suo)(以下简称微(wei)电(dian)子(zi)所(suo)(suo)),其芯片所(suo)(suo)采(cai)用的架构(gou)正(zheng)是中国(guo)芯片技(ji)术(shu)学术(shu)领(ling)军(jun)者——中国(guo)半导(dao)体(ti)行(xing)业协(xie)会IC设计分会理事长、清华(hua)大(da)学微(wei)电(dian)子(zi)所(suo)(suo)所(suo)(suo)长魏少军(jun)教(jiao)授所(suo)(suo)带(dai)领(ling)研发的可重(zhong)构(gou)计算(suan)架构(gou)。
今日,智(zhi)东西来到清(qing)微智(zhi)能的(de)(de)(de)办公室,和(he)创始人(ren)兼(jian)CEO王博深入(ru)交流,看这(zhei)家出身“名门(men)”、即将满1周岁(sui)的(de)(de)(de)AI芯片新秀,如何(he)带(dai)着(zhe)清(qing)华大(da)学前沿的(de)(de)(de)创新架(jia)构踏入(ru)产业(ye)的(de)(de)(de)大(da)门(men),如何(he)快(kuai)速在逐(zhu)渐火热的(de)(de)(de)AI芯片市(shi)场(chang)站稳(wen)脚跟(gen)。

一、谋定而后动,脱胎清华微电子系
清微智(zhi)能成(cheng)立于(yu)2018年7月,其技(ji)术(shu)脱胎于(yu)清华大学(xue)微电子学(xue)Thinker团队。
如今(jin)的芯片产业,放眼望去,数(shu)不胜数(shu)的国内(nei)外半导体企业高(gao)管从(cong)清华大(da)学电子(zi)工程系和微电子(zi)所走出。
而微电子所的灵魂(hun)人物——现任清(qing)华(hua)大(da)学微电子研(yan)究所所长、中国半(ban)导(dao)体行业协会IC设(she)计分会理事(shi)长魏少(shao)军教授,在过去的十(shi)几(ji)年间一直(zhi)深(shen)耕于一项核心技术——“软件定义芯片”,即可(ke)重构计算芯片技术。
意识到(dao)可重构(gou)计(ji)算架构(gou)对于芯片算力提(ti)升和功耗降低的(de)巨(ju)大优势,2006年,魏少军教授牵头成立了清(qing)华大学可重构(gou)计(ji)算研究团队,而这支团队后来成为清(qing)微(wei)智(zhi)能的(de)核心。
2015年,AI复兴,对(dui)芯(xin)片运(yun)算能力产生(sheng)了(le)远(yuan)高于传统芯(xin)片的要求,这(zhei)个时候,沉(chen)寂了(le)9年的可重构(gou)计算因(yin)其与AI算法契合的特性,开始重新(xin)进入(ru)“聚光(guang)灯下”。
自2016年起,基于可重构计算架构,魏少军教授团队中的清华大学微纳电子系副系主任尹首一副教授带队设计研发了4款Thinker系列的低功耗终端AI芯片,分别是实验性质的验证芯片Thinker I、人脸识别芯片Thinker II、语音识别芯片Thinker S、语音识别芯片Thinker IM。(AI芯片终极难题 被清华大学IC男神解决了!)

这三款芯片的设(she)计方案(an)一问世,就收(shou)获(huo)了(le)国(guo)际学术界的认可。比如Thinker-I首次出现(xian)在2017VLSI国(guo)际研讨会上时,外界评价它(ta)“突破了(le)神(shen)经网络计算(suan)和访(fang)存瓶颈,实现(xian)了(le)高能效多模(mo)态混合神(shen)经网络计算(suan)。”
而清(qing)微智能CEO王博的本科和硕士均在北京邮电大学(xue)(xue)计算机通信专业就读,他(ta)与(yu)清(qing)华大学(xue)(xue)Thinker团队的相(xiang)识,却来自一段同学(xue)(xue)缘分。
彼时,王博还(hai)在(zai)一家云(yun)计算方案提供(gong)商工(gong)作,负(fu)责智(zhi)能硬件产品(pin),他在(zai)做(zuo)一款人脸(lian)识别智(zhi)能门锁(suo)时,想要(yao)找到合适的(de)芯片,却发现市面上(shang)的(de)高通等(deng)公司无法满足他们对能耗比等(deng)性能的(de)需求。
尹首一副教(jiao)授的大学(xue)同(tong)学(xue)是王(wang)博的高中同(tong)学(xue),两人因此(ci)结识。
王博得(de)知尹(yin)首(shou)一副教授在带(dai)领Thinker团队做AI芯片,看到(dao)其(qi)芯片设(she)(she)计(ji)方(fang)案拥(yong)有出色的能耗比(bi),再经(jing)过深入了解他们所设(she)(she)计(ji)的可重构计(ji)算架(jia)构的技术,王博对这一架(jia)构的扩展性(xing)感到(dao)认可,觉得(de)这条路线(xian)是可行的。
预测到(dao)AIoT市场将步入全面(mian)爆发期后,2018年7月(yue),王(wang)(wang)博(bo)(bo)牵(qian)头在北(bei)京中关(guan)村成立了(le)清微智(zhi)能公司,将技(ji)术产品化,由王(wang)(wang)博(bo)(bo)任(ren)CEO,尹首一(yi)副(fu)教授(shou)为首席科(ke)学家,欧阳鹏博(bo)(bo)士任(ren)CTO和(he)Thinker芯片主架构师。
Thinker团(tuan)队原本就分为两部分,一(yi)部分是尹首一(yi)副教(jiao)授带领(ling)一(yi)些博士生从事(shi)整个架构的(de)设计和(he)优化工作(zuo),另一(yi)部分是清华以社招(zhao)形式招(zhao)进来的(de)专门负责(ze)芯片(pian)实(shi)现(xian)的(de)工程(cheng)师。
清(qing)微智能的初始技术(shu)团(tuan)队主(zhu)要来自Thinker团(tuan)队中负责(ze)实现芯(xin)片(pian)的工程(cheng)师们(men),约一二十人,如今其团(tuan)队数量已扩展到70多(duo)人。团(tuan)队成员(yuan)来自清(qing)华(hua)大学、NVIDIA、Sony等(deng)知(zhi)名高校和企业,在半(ban)导体行业具备多(duo)年经验。
去年第三季(ji)度,清微智能(neng)拿(na)到(dao)百(bai)度战投(tou)领投(tou)的近亿元天使(shi)轮(lun)融资,由百(bai)度战投(tou)、分(fen)众(zhong)传媒、禧筠资本、国隆资本、西子联(lian)合控股等联(lian)合投(tou)资,而新一轮(lun)融资计划也将于近期启(qi)动(dong)。
而清微(wei)智能在(zai)成(cheng)立不足一年(nian)的时间,就(jiu)交(jiao)出(chu)了(le)TX210语(yu)音芯(xin)(xin)片百万数(shu)量级的量产,图像芯(xin)(xin)片也将于今(jin)年(nian)12月量产,这一成(cheng)就(jiu),源自(zi)清华大学(xue)十多(duo)年(nian)扎(zha)实的技术积(ji)累、200多(duo)项技术专利。
二、软件定义芯片:可重构计算芯片架构
在今年的(de)(de)全球(qiu)AI芯(xin)(xin)片峰会GTIC 2019上,魏少军教授曾(ceng)展示这样(yang)一(yi)张PPT。他将芯(xin)(xin)片分(fen)成三部分(fen):第(di)一(yi)部分(fen)是(shi)可更多编(bian)(bian)程的(de)(de),如(ru)CPU;第(di)二部分(fen)是(shi)能(neng)少量编(bian)(bian)程的(de)(de),如(ru)GPU;第(di)三部分(fen)是(shi)不能(neng)编(bian)(bian)程的(de)(de),如(ru)专用芯(xin)(xin)片。

除了可编程性,这些不(bu)同计算架(jia)构的(de)主要差别在于能效。专(zhuan)用芯片到GPU之(zhi)间有1000倍(bei)的(de)能效差距,而1000倍(bei)是一个很重要的(de)分界线。
魏(wei)少军(jun)教授表(biao)示(shi),如(ru)果我们的(de)AI芯片(pian)做不(bu)到(dao)比(bi)GPU高1000倍(bei)的(de)能(neng)效,就不(bu)能(neng)满足人们在终端(duan)侧的(de)需求。
传(chuan)统的终(zhong)端AI芯(xin)片,主要基于CPU、DSP、GPU、NPU等架(jia)构(gou),这(zhei)些架(jia)构(gou)本质属(shu)于指令驱动的计算模(mo)式,属(shu)于冯·诺(nuo)依曼(man)架(jia)构(gou)。
这些架构在具(ju)体计算过程中(zhong),面向某一特(te)定领域,往(wang)(wang)往(wang)(wang)存在高能效和灵活性不可兼得的(de)问题,比如华为旗(qi)舰手(shou)机中(zhong)强大(da)的(de)麒麟芯片,就不适用于安防摄(she)像头、智能家居等场景。
它们需要从指(zhi)令(ling)(ling)存储器中加(jia)载指(zhi)令(ling)(ling)并解析指(zhi)令(ling)(ling),然后指(zhi)导执行(xing)单元进行(xing)计(ji)算(suan)。在数据计(ji)算(suan)中,这是一(yi)种灵活但是低效的时域计(ji)算(suan)模式。
此外,在(zai)AI芯片的(de)(de)研发过程中,也(ye)有团队利用单(dan)指(zhi)令(ling)(ling)流多数据流(SIMD)的(de)(de)方式来(lai)提高(gao)数据复用,从而(er)减少指(zhi)令(ling)(ling)解(jie)析,但是SIMD面向的(de)(de)是同(tong)构的(de)(de)操(cao)作(zuo),当(dang)指(zhi)令(ling)(ling)功能变换时,仍需要重复前面的(de)(de)过程。

为了兼具高能效和可(ke)(ke)编(bian)程(cheng)性,清华(hua)大学Thinker团队致力于研究的是一种无(wu)需指令(ling)驱(qu)动的计算模式,即动态可(ke)(ke)重(zhong)构计算架构(CGRA,Coarse grain reconfigurable architecture),也就是上图红色区(qu)域。
它是一种非冯·诺(nuo)依曼架构(gou),简单而(er)言(yan),就是将软件(jian)通过(guo)不同(tong)的管道输送(song)到硬件(jian)中(zhong)来执行功能(neng),使得芯片能(neng)够实(shi)(shi)时地根据(ju)软件(jian)/产(chan)品的需求(qiu)改(gai)变功能(neng),实(shi)(shi)现更加灵活的芯片设计。
传(chuan)统(tong)的(de)(de)芯片(pian)(pian)需要让(rang)应用(yong)来适(shi)应架(jia)构,而(er)CGRA架(jia)构更加灵活(huo),能够根据数据流(liu)的(de)(de)特点,让(rang)软件来调整芯片(pian)(pian)的(de)(de)计算能力,在最合理分配和(he)使用(yong)算力的(de)(de)同时,成倍节约(yue)了数据存储和(he)传(chuan)输(shu)带宽。
王博(bo)介绍说(shuo),CGRA架构适合AI、视频编解码、语音(yin)处理等计(ji)(ji)算密集(ji)型(xing)场(chang)景,但(dan)不(bu)适用于(yu)以(yi)逻辑判(pan)断为主的(de)非(fei)计(ji)(ji)算密集(ji)型(xing)场(chang)景。

CGRA基于(yu)数据(ju)流图(tu),面向(xiang)的是(shi)异(yi)构(gou)的空域(yu)计算,一(yi)次配置(zhi)形成固(gu)定的电路结构(gou),从(cong)而以接近(jin)ASIC效率反复(fu)执行,资源利用(yong)率和数据(ju)复(fu)用(yong)率高。
同时(shi),相比专用集成电(dian)路(lu)(lu)(ASIC)方式的固定电(dian)路(lu)(lu)结(jie)构,它又可(ke)以根(gen)据应用或者(zhe)算(suan)法进行电(dian)路(lu)(lu)配置,使得硬(ying)件重新(xin)形成不(bu)同的计算(suan)电(dian)路(lu)(lu)结(jie)构,具有(you)非常强的灵活性。

▲“指令驱(qu)动”的时域计算(suan)模式(shi) v.s. “数(shu)据驱(qu)动、动态重构”的空间计算(suan)模式(shi)
以这个更(geng)低(di)能耗和更(geng)强灵活(huo)性(xing)的(de)架构(gou)为基(ji)础,清微智能CTO欧(ou)阳鹏透(tou)露,清微智能在具体的(de)芯片(pian)设计上(shang),又(you)做了(le)两(liang)方面深化。
1、支持混合精度计算
主流(liu)神经(jing)网(wang)络算法(fa)具有混(hun)合数(shu)据精度表(biao)示的特点,即不同(tong)的神经(jing)网(wang)络层可用不同(tong)数(shu)据位宽(kuan)来表(biao)达中间(jian)数(shu)据或者权重(zhong)数(shu)据的精度。
然而,传统AI架(jia)构无法(fa)高(gao)效支持(chi)混(hun)合精(jing)度(du)(du)计算(suan)(suan),通(tong)常(chang)只(zhi)能支持(chi)单一精(jing)度(du)(du)计算(suan)(suan),或者只(zhi)能通(tong)过扩展资源方式支持(chi)少数(shu)几(ji)种精(jing)度(du)(du)。
相较而言(yan),清(qing)微AI芯片产(chan)品能支(zhi)持从(cong)1bit-16bit的混合精(jing)度(du)计算,同时(shi),不同的神经(jing)网络(luo)层可以采用不同的精(jing)度(du)表示,可以实时(shi)切换精(jing)度(du)。
这源自CGRA架构的特(te)点,在具体实现过程中,可(ke)重构模式(shi)动态重组计(ji)(ji)算(suan)资源和带(dai)宽(kuan),根据(ju)精(jing)度(du)表(biao)示,让计(ji)(ji)算(suan)资源和带(dai)宽(kuan)接(jie)近(jin)满负荷进行计(ji)(ji)算(suan),从而将(jiang)混合(he)精(jing)度(du)网络(luo)下的计(ji)(ji)算(suan)资源和带(dai)宽(kuan)的利(li)用率逼近(jin)极限,高效支持多种混合(he)精(jing)度(du)的神经网络(luo)。
2、优化非神经网络计算效率
AI算法不止有(you)神经(jing)网络中卷积层、全连(lian)接(jie)层等逻辑(ji),还有(you)非神经(jing)网络计算逻辑(ji)。
比如在人脸检测和识别中,有NMS(非极大值抑制)以及仿射变换;在语音识别中,有FBANK/MFCC特征提取以及声学解码等。
而与(yu)此同时,非神经网络算(suan)法也在快速演(yan)进。比如(ru)最新NMS已经演(yan)化(hua)到Soft-NMS。
传(chuan)统AI芯片架(jia)构强(qiang)调了(le)神(shen)经网(wang)络逻辑(ji)的(de)(de)计(ji)算效率,却忽(hu)视了(le)非(fei)神(shen)经网(wang)络逻辑(ji)的(de)(de)计(ji)算效率。
针对非神经(jing)网络逻(luo)辑,一般(ban)仍然(ran)采用(yong)CPU或(huo)者DSP进(jin)行处理,或(huo)者采用(yong)ASIC进(jin)行固化。
清微AI芯片产品针对(dui)神(shen)经网络部(bu)分和非神(shen)经网络部(bu)分均(jun)进行了计算效率(lv)考虑。
针对非神经网络处理(li)逻辑,从算法数(shu)据流(liu)图(tu)进(jin)行空(kong)间映(ying)射,以接近ASIC效(xiao)率(lv)计算。
同时,其产品通过配(pei)置形(xing)成不(bu)同的电(dian)路结构来动态处理不(bu)同非神经(jing)网络计算逻辑,在保证灵活性(xing)前提(ti)下,计算效率有(you)极(ji)大提(ti)升(sheng)。
三、首款语音AI芯片量产,超强能效比
基于创(chuang)新的CGRA架构,清微智能第(di)一(yi)款(kuan)实现规模(mo)化量产的语音AI芯(xin)片(pian)TX210拥(yong)有业(ye)界领先的算力、能耗比(bi)、时(shi)延、面(mian)积和成本。

据介绍,TX210采用台(tai)积电40nm ULP工艺(yi),支持WLCSP和QFN两种产品(pin)封装。
该(gai)芯片(pian)支(zhi)持离线语音唤醒功能,支(zhi)持5个唤醒词和10个命令(ling)词,还支(zhi)持声纹(wen)识别。它支(zhi)持3-5m的远场(chang)语音唤醒和识别,工(gong)作频(pin)率为50MHz,延(yan)迟不到10ms。
继承(cheng)CGRA架构的(de)(de)特点,TX210芯片可(ke)编程(cheng)、可(ke)重构,在结构上(shang)有(you)着极(ji)强的(de)(de)灵活(huo)性,支(zhi)持(chi)(chi)多比特DNN神(shen)经(jing)网络(luo),可(ke)以(yi)支(zhi)持(chi)(chi)1-16bit位(wei)宽(kuan)的(de)(de)神(shen)经(jing)网络(luo)计算,也支(zhi)持(chi)(chi)FFT/MEL FILTER等。
由于(yu)语音AI芯片的(de)(de)应用场(chang)景非常丰富(fu),可(ke)以应用至智(zhi)能(neng)手(shou)机、可(ke)穿(chuan)戴智(zhi)能(neng)设备、小家电(dian)、大家电(dian)、玩具及车载等(deng)众多场(chang)景中,而低能(neng)耗又是(shi)从终端(duan)设备到用户都非常重视的(de)(de)性能(neng)。
对此,TX210针对语音交(jiao)互场景做(zuo)了更(geng)多优化。
比如为了保(bao)持在低功(gong)(gong)耗状态,它采用多级功(gong)(gong)耗唤醒(xing)模式,只有在通过麦克风检(jian)测到人(ren)声时,它才(cai)会(hui)被激活(huo),准确监(jian)听(ting)到“唤醒(xing)词”后,TX210才(cai)会(hui)去唤醒(xing)处于(yu)休眠状态的主控处理器芯片。
另外,芯片支持一语(yu)直达(da)功能,处理器只(zhi)需要处理唤(huan)醒词之后的语(yu)音(yin)信号内容(rong)。
经过多重优化,TX210将(jiang)工作(zuo)功耗控制(zhi)在2mW内(nei),将(jiang)语音活动检测(Voice Activity Detection,VAD)功耗降至(zhi)100uW内(nei)。

该语音AI芯片的另一个特点是(shi)用极小(xiao)的芯片面积支持(chi)丰富的接口和(he)电源管理。
TX210的WLCSP封装面积仅有2.3 x 1.9mm2,适用(yong)于手机,蓝(lan)牙耳机等对体积要(yao)求苛刻的应(ying)用(yong)场景(jing);同时TX210集成了LDO/ADC/BANDGAP/PGA等模拟(ni)器件,支(zhi)持32K crystal输入,极大降低(di)了用(yong)户(hu)的使用(yong)成本。
除此之(zhi)外(wai),在降噪(zao)方(fang)面(mian),TX210也做(zuo)了进一(yi)(yi)步优化,单麦基(ji)于(yu)深度(du)学(xue)习进行降噪(zao),双麦则(ze)是将传(chuan)统(tong)算法与深度(du)学(xue)习相(xiang)结合,在典型信噪(zao)比(bi)下,TX210的唤醒(xing)识(shi)别(bie)率(lv)达95%,误识(shi)别(bie)率(lv)小于(yu)24小时一(yi)(yi)次。
据介(jie)绍,在TX210正式上市前,清微智(zhi)能(neng)已与一(yi)些(xie)大型的(de)互联网公(gong)司、智(zhi)能(neng)手机(ji)及家电厂商建立了合(he)作关(guan)系。
而这只(zhi)是清微智能基于(yu)CGRA架构芯片的开始,他(ta)们的视觉芯片预(yu)计将在今年12月(yue)量(liang)产。
王(wang)博告诉智东(dong)西,目前他们(men)规划CGRA架构(gou)(gou)(gou)18个(ge)月一(yi)迭代,下一(yi)代架构(gou)(gou)(gou)有望将算(suan)(suan)力(li)再提高5-10倍。随(sui)着Thinker团队持(chi)续迭代更新CGRA架构(gou)(gou)(gou),未来其(qi)语(yu)音(yin)芯片(pian)和视觉(jue)芯片(pian)的算(suan)(suan)力(li)和能效(xiao)比都将进一(yi)步提升(sheng)。
在算(suan)法(fa)方(fang)面(mian),清微智能在在算(suan)法(fa)压缩,量(liang)化(hua)以及硬(ying)件友好化(hua)设计(ji)方(fang)面(mian)有(you)长期的(de)积累,并与中(zhong)科院(yuan)、清华大学、乔治理(li)工大学等开展(zhan)了(le)深入合作。
清微(wei)智(zhi)能还研发了一套CGRA软(ruan)件开发平(ping)台,这个平(ping)台兼(jian)容TensorFlow、Caffe等主流(liu)AI框(kuang)架,可自动(dong)完成转(zhuan)换、解析、编译、生成等过(guo)程。他们自己的(de)编译平(ping)台,允许用户从其它框(kuang)架无(wu)缝迁移清微(wei)智(zhi)能的(de)芯片。

清微智能选择先(xian)切入终端AI芯片市场,这(zhei)与当下(xia)的(de)大环(huan)境不无(wu)关(guan)联。
去年(nian),智能(neng)终端产(chan)品呈井(jing)喷式发展(zhan),智能(neng)音箱在2018年(nian)第四季(ji)度(du)的(de)出货量增长了95%。日前(qian),工信(xin)部(bu)电子科技委副主(zhu)任莫玮曾表示:“中国(guo)已成为全球最大(da)的(de)智能(neng)终端生产(chan)和(he)消费国(guo)。”
但业(ye)界普遍认为,终端智能的渗(shen)透(tou)率(lv)尚(shang)不足1%。这意味着,智能终端市场规模远(yuan)未达到(dao)预(yu)期,也意味着终端AI芯(xin)片(pian)市场的巨大潜力。
基于CGRA架构研发芯(xin)片的(de)不止清微智(zhi)能一(yi)家,美国创企Wave Computing采用这一(yi)架构的(de)第二代DPU芯(xin)片预计将在明(ming)年面(mian)世(shi),是一(yi)款7nm云端AI芯(xin)片。
至于清(qing)微智(zhi)能(neng)是否有进军云(yun)(yun)端AI芯片的(de)计(ji)划,王博表示(shi),Thinker团队之前(qian)曾(ceng)做(zuo)出过成(cheng)功的(de)云(yun)(yun)端芯片,考虑到公(gong)司规(gui)模和(he)投入阶段问题,他们想先(xian)在端侧验证架构(gou)的(de)表现是出色的(de),等下(xia)一阶段有了足够积累(lei),再去做(zuo)云(yun)(yun)端芯片。
四、创新架构是AI芯片发展的关键
目前AI芯片产业化还(hai)在起步阶段,从(cong)算(suan)法(fa)到算(suan)力(li),能耗比刚刚能满足用户(hu)基础的需求(qiu)。
由于AI计(ji)(ji)算需要(yao)很(hen)大(da)算力,但(dan)传统的(de)(de)冯·诺依曼架构在计(ji)(ji)算密(mi)集(ji)(ji)型任(ren)务方面(mian)遇到了瓶颈(jing),芯片设计(ji)(ji)底层(ceng)架构的(de)(de)创(chuang)新成为(wei)未来持续发展关键(jian),王博(bo)认为(wei),这也是(shi)很(hen)多AI创(chuang)业公司集(ji)(ji)中(zhong)出现的(de)(de)原因(yin),大(da)家都在同一起跑线(xian)上。
即便(bian)采用同一类架构,如CGRA,设计(ji)思路在本(ben)质上不(bu)会有(you)太多差别,但每个处(chu)理(li)(li)元素(su)(PE,Processing Element)中怎么设计(ji)、让它实现怎样的功能、处(chu)理(li)(li)元素(su)之(zhi)间(jian)怎样连接更(geng)高效……这(zhei)些细(xi)节的设计(ji)与创新会决定各家芯片的差异。
除了架(jia)构(gou)创(chuang)新(xin),工(gong)艺、近阈值的(de)技术等方法的(de)进化也很(hen)重(zhong)要(yao),他们能(neng)在先(xian)进架(jia)构(gou)的(de)基础上进一步提升芯片的(de)性能(neng)。
王博(bo)也谈到,做芯(xin)(xin)片(pian)的(de)(de)本质上还是(shi)要(yao)独立流片(pian)以(yi)及建立一(yi)个完整的(de)(de)生态系统,而不是(shi)把各(ge)种功能的(de)(de)IP堆在一(yi)起(qi)就行。做好芯(xin)(xin)片(pian)的(de)(de)前提,是(shi)要(yao)拥有大(da)量的(de)(de)芯(xin)(xin)片(pian)行业积(ji)累。
芯片还需面临越来越多的(de)场景(jing)去(qu)(qu)定义创新,才能将前(qian)期(qi)费用分摊下去(qu)(qu),才能盈利,如果没(mei)有几千万的(de)场景(jing)去(qu)(qu)支(zhi)撑,做芯片的(de)意义就不存(cun)在(zai)了(le)。
对(dui)于终端智能而言,上传云端的(de)稳定性、延时(shi)、隐(yin)私、部(bu)署(shu)成(cheng)本等(deng)问题仍亟待(dai)解决(jue),即将(jiang)出现的(de)5G将(jiang)使得更(geng)多设(she)备(bei)能够联网互通,使得这些设(she)备(bei)对(dui)终端智能的(de)要(yao)求(qiu)更(geng)加明确和丰(feng)富。
结语:终端AI芯片落地新战在即
从清微智能(neng)身上,我们(men)看到更(geng)加新颖的一种芯片(pian)团队组合,他(ta)们(men)不仅拥(yong)(yong)有(you)来自(zi)学术大牛带队研发的前沿创新架构,还拥(yong)(yong)有(you)产业(ye)经验丰富的工程师们(men)。两(liang)强结合之下,清微智能(neng)既拥(yong)(yong)有(you)高(gao)性(xing)能(neng)+极低(di)功耗的芯片(pian),又能(neng)快速推进产品完成变(bian)现。
近一两年,一批新玩(wan)家涌入终端AI芯(xin)片(pian)市(shi)场(chang),但撇除那(nei)些(xie)为了实现垂直化整合(he)或优化自身(shen)整体方案(an)的(de)(de)AI算法公(gong)司、设备供应商等跨界玩(wan)家,市(shi)场(chang)机会逐渐聚(ju)拢在少数拥有创(chuang)新架(jia)构(gou)的(de)(de)玩(wan)家身(shen)上。
终端AI芯片的(de)(de)落(luo)地之战(zhan)才刚刚开(kai)始,技术路径、覆盖场景(jing)、落(luo)地速(su)度、生(sheng)态扩张(zhang)等因素都有可能将这些玩家拉开(kai)差(cha)距,市场将检(jian)验出谁是能打(da)持(chi)久战(zhan)的(de)(de)企业。