智东西(公众号:zhidxcom)
文 | 心缘

架(jia)构(gou)创新(xin)正(zheng)成为新(xin)风口,而新(xin)兴势力在其中扮演(yan)着至关(guan)重要(yao)的角色。

传统(tong)芯片遵循冯·诺依曼架(jia)构,处(chu)理器和存储相(xiang)互(hu)分离,在(zai)承担AI推理运(yun)算时,数据(ju)要在(zai)硬(ying)盘、主存、计算单元之间搬(ban)来(lai)搬(ban)去,90%以上(shang)的能量损耗于这一过程中。

为了突破传统架(jia)构对算力的掣肘,存(cun)(cun)算一体这种新兴逻(luo)辑架(jia)构应运而生。其(qi)常见实现方(fang)式有两(liang)种,一是(shi)在内(nei)存(cun)(cun)和固态硬盘芯片中(zhong)植入计算单元,另一种则(ze)是(shi)在直接用存(cun)(cun)储单元完成计算任务。

2016年,一对(dui)北(bei)大微电(dian)子系85后夫妻,在留美(mei)期(qi)间积(ji)累了基于(yu)NOR Flash的存算一体AI芯片研发经验(yan),并早(zao)早(zao)定(ding)下(xia)回国创业的想法。

就在今年8月6日,他(ta)们所(suo)创办的知(zhi)存科技宣布了近亿(yi)元A轮融资。

颠覆传统芯片架构,用闪存做AI推理,这家创企要造不一样的语音芯片

▲知存科(ke)技(ji)(ji)创始人兼CEO王绍迪展示知存科(ke)技(ji)(ji)的存算一体AI芯片(pian)

近(jin)日,智东西同知存(cun)科技创(chuang)始人(ren)兼(jian)CEO王绍迪聊了聊创(chuang)业背后的(de)故事(shi),从创(chuang)业想(xiang)法萌(meng)芽阶段的(de)无人(ren)问津(jin),到创(chuang)业5个月完(wan)成(cheng)流片(pian)(pian),再(zai)到即(ji)将迎(ying)来第一(yi)批(pi)产品的(de)落地(di),他(ta)们正在离三年内卖出5000万颗芯片(pian)(pian)的(de)“中期目(mu)标(biao)”越来越近(jin)。

一、从游戏中孵出的芯片情结

23年前,王(wang)绍迪8岁,父(fu)母为(wei)他买了一(yi)(yi)台搭载英特尔奔腾一(yi)(yi)代CPU的(de)586电脑(nao)。那(nei)时候一(yi)(yi)台586电脑(nao)售价八(ba)千多元,花费(fei)了他父(fu)母将近一(yi)(yi)年的(de)工资。

奔腾(Pentium)这个跨时代的产品,不仅开辟了英特尔一统CPU市场的盛世王朝,也在王绍迪心中埋下做芯片的种子。
小学期间的(de)王绍迪,主要还是用电脑来玩游戏。在这一过程中,他直观(guan)感受到摩尔定律(lv)带(dai)来的(de)变化(hua),计算机变革飞速(su),CPU速(su)度、光(guang)驱速(su)度、软盘(pan)速(su)度、硬盘(pan)内(nei)存(cun)大小等都日新月异。

很快,586电(dian)脑已经跟不上游戏速度,家里的电(dian)脑配(pei)置(zhi)逐渐(jian)(jian)升级,每隔两三年换一代。2000年左(zuo)右,为了玩雷神之锤等3D效果好的游戏,王绍迪开始(shi)接触GPU。渐(jian)(jian)渐(jian)(jian)地,王绍迪开始(shi)对芯片(pian)非常着迷。

经过高(gao)中(zhong)(zhong)物理竞赛(sai),高(gao)三上(shang)半学期,王绍迪被保送北大。在(zai)接受(shou)当(dang)地辽沈晚报采(cai)访时,他即坚定地表达了自(zi)己(ji)的爱(ai)好和志(zhi)向,希望进修微(wei)电子专业,成为“中(zhong)(zhong)国(guo)芯”的研发(fa)人员(yuan)之一。

颠覆传统芯片架构,用闪存做AI推理,这家创企要造不一样的语音芯片

▲辽沈晚报专(zhuan)访王绍迪(di)(图右)

二、结缘存算一体,师从学术大牛

知存科技关于存算一体芯片技术的根基,来源于王绍迪的妻子郭昕婕,她是第一批从事存算一体AI芯片研究的博士生。
尽管王(wang)绍迪和(he)郭昕婕都是2011届信息科学技术(shu)学院(yuan)微电子专业的(de)应届生,但由于(yu)北(bei)大教学很重视(shi)基(ji)础(chu),前两(liang)年上的(de)都是理(li)论课(ke)那种大课(ke),两(liang)人直到大三才相识。

到大四申请出国留学时,两人关于学校的一个重要筛选标准就三个字——离得近。
一般同学(xue)(xue)申(shen)(shen)请(qing)十几所学(xue)(xue)校(xiao)(xiao),他们则一连申(shen)(shen)请(qing)三(san)十多(duo)个学(xue)(xue)校(xiao)(xiao),还特意按着美国地图看,就(jiu)是为了能(neng)申(shen)(shen)请(qing)到(dao)(dao)同一个或者离得(de)近的(de)学(xue)(xue)校(xiao)(xiao)。最终(zhong),王绍迪申(shen)(shen)请(qing)到(dao)(dao)的(de)加(jia)州(zhou)大学(xue)(xue)洛杉矶分(fen)校(xiao)(xiao)(UCLA),和郭昕婕申(shen)(shen)请(qing)到(dao)(dao)的(de)加(jia)州(zhou)大学(xue)(xue)圣塔芭芭拉分(fen)校(xiao)(xiao)(UCSB),相隔不(bu)过100英(ying)里。

颠覆传统芯片架构,用闪存做AI推理,这家创企要造不一样的语音芯片

说起来,郭昕婕此后研究存算一体芯片所跟随的导师,还是王绍迪在拿到几个offer后,帮她向导师写信申请的。
郭昕婕的导师Dmitri B.Strukov教授是做存算一体的学术大牛。

2008年,惠普实(shi)验室(shi)(HP Labs)证(zheng)实(shi)了37年前的(de)(de)科(ke)学预言,发现世界上第四种基本电路元(yuan)件——忆阻(zu)器(memristor),并成功实(shi)现了世界首个能工作的(de)(de)忆阻(zu)器原型,这项(xiang)研究(jiu)在《Nature》上发表(biao)《寻获(huo)下落不(bu)明(ming)的(de)(de)忆阻(zu)器》,而Dmitri B.Strukov正(zheng)是这一团(tuan)队的(de)(de)核心(xin)成员之一。此(ci)后,忆阻(zu)器、存(cun)算一体这些研究(jiu)陆续如火如荼地开展。

颠覆传统芯片架构,用闪存做AI推理,这家创企要造不一样的语音芯片

▲HP Labs忆阻器(qi)团队,从(cong)左到(dao)右分别是Dmitri Strukov, Stan Willams, Duncan Stewart, Greg Snider

2011年(nian),即毕业那年(nian),王绍迪和郭昕婕(jie)提(ti)交(jiao)申(shen)请(qing),同样在这一(yi)(yi)年(nian),Dmitri B.Strukov准备申(shen)请(qing)存算(suan)一(yi)(yi)体项(xiang)目,次年(nian)郭昕婕(jie)就成(cheng)为了第(di)一(yi)(yi)批被招收的(de)(de)学生(sheng),被分到基于NOR Flash的(de)(de)存算(suan)一(yi)(yi)体芯片技术(shu)方(fang)向(xiang)。

Dmitri B.Strukov告(gao)诉她,这(zhei)个(ge)方向(xiang)是(shi)最接(jie)近(jin)产业化的(de)、实用的(de)方向(xiang),Flash技术成(cheng)熟,已(yi)经商用几十(shi)年(nian),成(cheng)本(ben)很(hen)低,但其缺点同样是(shi)因为(wei)Flash研究起步较早,不好在顶刊上(shang)发文章。

立项初期,深度学习还不火,郭昕婕主要将存算一体芯片应用在视频处理矩阵乘法,到2013年,深度学习的热度席卷学术界,发现存算一体芯片运算深度学习效果好后,在导师的支持下,郭昕婕直接转方向到做深度学习芯片。
历经6次(ci)流片,耗(hao)时4年(nian),郭(guo)昕婕终于(yu)在2016年(nian)研发(fa)出全球第一(yi)个(ge)3层神(shen)经网络的浮栅存算一(yi)体深度学(xue)习(xi)芯(xin)(xin)片技(ji)术(shu),并完成技(ji)术(shu)验证。一(yi)年(nian)后,她(ta)又再度攻下7层神(shen)经网络的浮栅存算一(yi)体深度学(xue)习(xi)芯(xin)(xin)片。

颠覆传统芯片架构,用闪存做AI推理,这家创企要造不一样的语音芯片

▲郭昕婕在IEEE电子器件大会(IEDM 2017)上发表的论文

存(cun)(cun)算(suan)(suan)一体以(yi)(yi)存(cun)(cun)储(chu)器和(he)(he)模(mo)拟(ni)单(dan)元(yuan)为(wei)(wei)主,Flash存(cun)(cun)储(chu)阵列经(jing)优(you)化改造后,既可(ke)以(yi)(yi)容(rong)纳更多神经(jing)网络的权重参数(shu),又(you)可(ke)以(yi)(yi)完(wan)成和(he)(he)此权重相关(guan)的模(mo)拟(ni)计算(suan)(suan)。据王绍迪介绍,理论上,单(dan)个(ge)(ge)Flash单(dan)元(yuan)可(ke)完(wan)成8bit乘加(jia)法运(yun)算(suan)(suan),假设有200M个(ge)(ge)Flash单(dan)元(yuan),就能存(cun)(cun)储(chu)2亿个(ge)(ge)参数(shu),同时(shi)能并行完(wan)成2亿次乘加(jia)法运(yun)算(suan)(suan)。实际运(yun)行时(shi),算(suan)(suan)力(li)约为(wei)(wei)峰(feng)值的10%-50%,由于芯片具备一定通用性,并非完(wan)全针对某一算(suan)(suan)法定制,AI算(suan)(suan)法在芯片无法达到100%的利用率。

在王绍迪看来,存算一体芯片的核心优势有三点(dian)。

其一,存(cun)储单元可用于计(ji)算,运(yun)算中无(wu)需数(shu)据搬运(yun),运(yun)算单元数(shu)量可提升多个数(shu)量级。

其二(er),无需独(du)立(li)计算(suan)单(dan)元(yuan),这样既节省(sheng)了片上并(bing)行(xing)计算(suan)单(dan)元(yuan)的面积(ji)消耗,同(tong)时不用(yong)(yong)过于(yu)追求最先(xian)进的芯(xin)片加(jia)工(gong)工(gong)艺,而是可以使用(yong)(yong)成熟(shu)工(gong)艺来降低成本。

其三,架(jia)构中无需考虑内存搬运,大幅降低多核AI芯片的设计难度。

三、投石无路,艰难的创业起步

从郭昕婕的(de)(de)研究中,王绍迪看到了端侧AI芯片商用落地的(de)(de)价值,回国(guo)创业的(de)(de)想法在心中萌芽。然(ran)而创业的(de)(de)热情燃烧正旺,突(tu)然(ran)就被现实的(de)(de)冷水(shui)浇熄,他在说服别人投(tou)资的(de)(de)路上屡(lv)屡(lv)碰(peng)壁。

2016年(nian)年(nian)中,王绍迪在中美两处寻找投资人。

彼时美国主流观点认(ren)为端(duan)侧不需(xu)要AI,只有服(fu)务器端(duan)深度学习(xi)做训练的需(xu)求才较大。王绍迪(di)因在三(san)星(xing)和Arm实习(xi),便尝(chang)试联系这两(liang)家(jia)公(gong)司做存储器的相关负责人,但(dan)他们认(ren)为王绍迪(di)提出的方(fang)案找(zhao)不到应用场景。

在美国没得(de)到正面反(fan)馈,王绍(shao)迪托人回国询(xun)问却也无果。

当时他看中的(de)(de)市场(chang)是缺乏高(gao)效端侧算力(li)的(de)(de)AR市场(chang),而这一(yi)时期,国(guo)内(nei)的(de)(de)AR刚(gang)走(zou)过高(gao)速发展的(de)(de)黄金时期,市场(chang)开始(shi)疲(pi)软下滑,王(wang)绍迪也没(mei)能建立什么有效的(de)(de)联系(xi)。

时(shi)机(ji)没到,就(jiu)再等(deng)(deng)等(deng)(deng),王绍迪留在美国继续从事博士(shi)后研究(jiu)工作,很快(kuai),希望再次来临(lin)。

2016年9月(yue),英特(te)尔宣布收购(gou)视觉处理芯(xin)片(pian)创(chuang)企Movidius,直(zhi)接填(tian)补其在物联网(wang)领域的技术短(duan)板。伴随(sui)着这一(yi)收购(gou)案的推进,终端侧AI芯(xin)片(pian)逐渐兴起。从2017年年中开始,王绍迪每个月(yue)回国一(yi)次(ci)找(zhao)融(rong)资,另外一(yi)位合伙人也一(yi)直(zhi)在国内(nei)帮着找(zhao)各投资机构去聊。因为存(cun)算(suan)一(yi)体芯(xin)片(pian)仍(reng)然非常(chang)小众,找(zhao)融(rong)资的历程进行的十分艰难。

终于,在一位北航教授的帮忙联系下,启迪之星、兆易创新的投资人在和王绍迪聊过后伸出了橄榄枝,说可以投资。
得到这一(yi)口头承诺(nuo),王绍(shao)迪立刻飞往美国打包行李,把(ba)车一(yi)卖(mai),提前谈好做存(cun)算一(yi)体芯片所需的知识产权授权,不到一(yi)个月(yue)就(jiu)返(fan)回祖国,于2017年10月(yue)在北(bei)京创(chuang)办知存(cun)科技,王绍(shao)迪任CEO,郭(guo)昕婕任CTO。

四、创业初期的摸索

成立初期的知存科技可谓(wei)是一穷二白,融资难、缺人才、没经验(yan)。

考虑(lv)到(dao)携带资料日后可能有风险,王绍(shao)迪和妻(qi)子郭昕婕回(hui)国时基本上(shang)都两手空空。

一(yi)开始(shi),知存科技(ji)只有王绍迪(di)、郭昕婕(jie)和他(ta)们的合(he)伙(huo)人(ren)三个(ge)人(ren),租(zu)了一(yi)个(ge)四(si)人(ren)的小(xiao)办公室(shi),还多出一(yi)个(ge)工位。

三个(ge)人(ren)(ren)都(dou)是学术圈出身,余下(xia)的那个(ge)工位自然是要留给一(yi)个(ge)有(you)做模(mo)拟(ni)芯(xin)片经(jing)验的专业(ye)人(ren)(ren)士,后来他(ta)们花了很大精力(li)才请来一(yi)位具(ju)有(you)15年模(mo)拟(ni)芯(xin)片研(yan)发经(jing)验的老(lao)兵(bing)作(zuo)为(wei)知(zhi)存科技如今的模(mo)拟(ni)芯(xin)片研(yan)发负责人(ren)(ren)。

于是(shi),到2018年春节,知存的小团队成功涨到4个人。

颠覆传统芯片架构,用闪存做AI推理,这家创企要造不一样的语音芯片

创(chuang)业期间的节奏(zou)比学(xue)术研究期间快得多,企业规划、运营管理(li)和产业经验都要经持(chi)续学(xue)习和积累。从(cong)创(chuang)业至(zhi)今(jin),王绍迪每周上班(ban)时间超(chao)过100小(xiao)时,有一周甚至(zhi)只睡了不(bu)足28小(xiao)时。

因为在学术研究期间,郭昕婕几乎踩过各种芯片设计的坑,这也使得知存在成立后的短短5个月内就快速流片。
2018年初,知存的(de)扩张(zhang)速(su)度堪比“龟速(su)”,3月5个(ge)人,4月6个(ge)人,5月7个(ge)人,流(liu)片前(qian)才终于突破个(ge)位数,达到(dao)10个(ge)人。熬过缺乏(fa)资金的(de)创业(ye)初期,团队扩张(zhang)速(su)度逐步加(jia)快。

当前知存(cun)已经(jing)凝聚了一支经(jing)验和能力兼备的55人(ren)团队(dui),其(qi)中,模(mo)拟芯片(pian)设(she)计团队(dui)人(ren)数也增(zeng)至近11人(ren),团队(dui)平(ping)均工作经(jing)验达9年。此(ci)外(wai),王绍迪(di)还表示,今(jin)年知存(cun)科技还将再招(zhao)5人(ren)左右(you)。

融资(zi)(zi)方面(mian),知存(cun)科技已于2018年1月获(huo)得启迪之星等投(tou)资(zi)(zi)的(de)天使(shi)轮(lun)融资(zi)(zi),同年12月获(huo)讯飞领投(tou)的(de)天使(shi)+轮(lun)融资(zi)(zi),今年8月获(huo)得近亿元(yuan)A轮(lun)融资(zi)(zi),由中芯聚源领投(tou),普华资(zi)(zi)本(ben)、招商局创投(tou)、三峡鑫泰、科讯创投(tou)、燕(yan)缘雄芯跟投(tou)。

专(zhuan)利(li)方(fang)面,知(zhi)存科技申请了40多项专(zhuan)利(li),并购买了郭昕婕早期在国(guo)外研发(fa)期间所(suo)发(fa)明的专(zhuan)利(li)授权。

颠覆传统芯片架构,用闪存做AI推理,这家创企要造不一样的语音芯片

知存的(de)核(he)心产品MemCore001是基于NOR Flash存算一体架构的(de)嵌(qian)入式智能(neng)语音芯片(pian),主要应用于低功耗、低成本(ben)的(de)端侧语音识别,支(zhi)持(chi)8-bit DNN、LSTM、TDNN等多种常用网络(luo),支(zhi)持(chi)可变运算和(he)参数精度(du)。

据王(wang)绍迪介绍,算(suan)力(li)依据应(ying)用需求(qiu)而定,市(shi)面上的芯片算(suan)力(li)从1Mops到100Gops都有。知存即将发布3款存算(suan)一体芯片产品,功耗和成本和市(shi)面上10Mops的芯片相当,算(suan)力(li)为(wei)10Gops。

相比当下基于冯·诺(nuo)依曼(man)架构的AI芯片,知(zhi)存(cun)科技的存(cun)算一体芯片能将(jiang)运算效率(lv)提升20-50倍,现(xian)有(you)运算效率(lv)达(da)15TOPS/W,成(cheng)本也比常规AI芯片降低30-90%,针对不同(tong)应用的成(cheng)本在几十美(mei)分到几美(mei)元(yuan)。

五、泡沫化很正常,落地难只是暂时现象

随着(zhe)AI需求的演进(jin),知(zhi)存(cun)会(hui)对(dui)芯(xin)片内(nei)部相(xiang)应优化,通过调整设计架构,使其(qi)更(geng)好(hao)地支持现有网络支持,可(ke)配置性更(geng)多,对(dui)新型(xing)网络效率更(geng)高,整体芯(xin)片面积也变得更(geng)小。

存算一体毕竟是一个创新芯片架构,缺乏成熟的EDA工具、测试工具和应用层适配软件,量产步骤还够不成熟。不同于传统芯片直接将量产步骤交由晶圆厂来完成,存算一体芯片的量产步骤需要芯片设计公司和晶圆厂一起来探索和建立。
在语音芯(xin)片落地后,未来,知存还计划(hua)研发低(di)成本、低(di)功耗的(de)视觉处理芯(xin)片。

而王绍(shao)迪他们(men)之所以暂(zan)不考虑云端(duan),是(shi)因为软件(jian)SDK开(kai)发的投入太大(da),这对一家初创公司来说(shuo)将是(shi)很(hen)大(da)负(fu)担。Flash存在读(du)写(xie)偏慢的缺点,如果以后(hou)有更(geng)出色且成熟的存储器,他们(men)也会考虑用其替代Flash。

对于AI产(chan)(chan)业热议(yi)的(de)泡沫化以及AI芯片落地难(nan)、量产(chan)(chan)难(nan)等问题,王(wang)绍迪(di)也分享了他的(de)观察(cha)和思考。

他认(ren)为,像大多数快(kuai)速发展的(de)行业一样,AI也有(you)泡(pao)沫,但这并(bing)非因(yin)为AI没有(you)价值,而是(shi)因(yin)为还没找(zhao)到好的(de)商业模(mo)式,当前的(de)授权等商业模(mo)式利润不(bu)高。

在他(ta)看(kan)来,AI芯(xin)片(pian)(pian)落地(di)(di)难只是暂时的(de)(de)(de)(de)(de),AI芯(xin)片(pian)(pian)的(de)(de)(de)(de)(de)作用(yong)是帮助AI更(geng)好的(de)(de)(de)(de)(de)落地(di)(di)。从过去(qu)的(de)(de)(de)(de)(de)发展来看(kan),提供(gong)更(geng)高(gao)的(de)(de)(de)(de)(de)算(suan)力可(ke)以帮助更(geng)多的(de)(de)(de)(de)(de)算(suan)法落地(di)(di)到(dao)应用(yong),降低(di)成本(ben)和功耗(hao)可(ke)以帮助AI拓展更(geng)多的(de)(de)(de)(de)(de)应用(yong)场景。因此做算(suan)力更(geng)大的(de)(de)(de)(de)(de)AI芯(xin)片(pian)(pian)和更(geng)低(di)成本(ben)的(de)(de)(de)(de)(de)AI芯(xin)片(pian)(pian)都(dou)(dou)可(ke)以帮助AI落地(di)(di)。当前AI芯(xin)片(pian)(pian)落地(di)(di)难因为AI应用(yong)还不是一(yi)个成熟的(de)(de)(de)(de)(de)市场,没有成熟的(de)(de)(de)(de)(de)产品形态(tai)。AI芯(xin)片(pian)(pian)和AI一(yi)样都(dou)(dou)在摸索中发展,逐渐落地(di)(di)更(geng)多的(de)(de)(de)(de)(de)应用(yong)。

而关于(yu)AI芯片量产难的问题,王绍迪认为有多个原因(yin)。

一是AI产品新(xin),产品需求和功(gong)(gong)能(neng)一直(zhi)在(zai)变化,没有成熟的(de)产品形态(tai)。很(hen)多芯(xin)片(pian)(pian)做了很(hen)长时间(jian)design in,遇到产品需求突然变化,造成了芯(xin)片(pian)(pian)无(wu)法(fa)量产。这也是因(yin)为AI产品和算(suan)法(fa)更(geng)新(xin)换代快所导致的(de),选错了应用或者(zhe)功(gong)(gong)能(neng)设计错了的(de)芯(xin)片(pian)(pian)没法(fa)量产。

二是某些大算(suan)力(li)AI芯片需要很(hen)好的(de)算(suan)法(fa)适(shi)用性,研发周期(qi)长投入大从业人才少。

三是新型架构的(de)AI芯(xin)片(pian),像是存算一体芯(xin)片(pian),没有成熟的(de)方(fang)案可以采用,需要开发新的(de)量产方(fang)案。

结语

相(xiang)比那(nei)些在(zai)(zai)芯片行业(ye)摸(mo)爬滚(gun)打多年的老兵,王绍(shao)迪等(deng)从(cong)学(xue)术圈走出的创(chuang)业(ye)者们相(xiang)对缺(que)乏(fa)创(chuang)业(ye)经(jing)验和工程经(jing)验。尤其是在(zai)(zai)开辟一条蹊径之时,可(ke)能需经(jing)过各种(zhong)试错(cuo)、磨合、迷茫和思路(lu)转换。

但同时,他们也拥有更(geng)加蓬勃的朝(chao)气,坚定(ding)而无畏地追求创(chuang)新,勇于(yu)冒险(xian),敢于(yu)跳进(jin)造芯(xin)的洪流之中,注入一抹不(bu)一样的色彩。

诚(cheng)然,云端市场(chang)巨(ju)头环伺,终端市场(chang)亦是强手(shou)如林,留给创(chuang)企的机会(hui)有,真正做(zuo)到突围也(ye)很难(nan)。AI芯片(pian)产业(ye)(ye)(ye)的规律(lv)还(hai)需经(jing)历漫长的考验,而更多带着各(ge)类创(chuang)业(ye)(ye)(ye)者的涌入,势必会(hui)为(wei)整(zheng)个产业(ye)(ye)(ye)创(chuang)造更多的可(ke)能性。

在(zai)政府、投资方、孵(fu)化器等机构的帮助下,也许下一(yi)个破(po)局者已(yi)经在(zai)成长之中(zhong)。