智东西(公众号:zhidxcom)
文 | 心缘

这家AI芯片(pian)创(chuang)企已经潜伏近(jin)三(san)年(nian)了。

2016年(nian)底,谷歌(ge)TPU核心(xin)团队的(de)十个(ge)人中,有(you)八(ba)人悄(qiao)悄(qiao)组队离职,合伙创办(ban)了(le)新(xin)公司——Groq。

谷歌TPU,AlphaGo击(ji)败世(shi)界(jie)(jie)围(wei)棋(qi)冠军背(bei)后算力的(de)核心(xin)功臣,一战成名,带动起全球专(zhuan)用(yong)IA芯(xin)片市场的(de)火(huo)热。它的(de)核心(xin)设计人员外出创业,毫无疑问(wen)被外界(jie)(jie)视(shi)作无法(fa)忽(hu)视(shi)的(de)存(cun)在。

明知被(bei)产业热切地(di)关注着,这家创企却相当(dang)任性,在官宣要(yao)在2018年(nian)发(fa)布第一代AI芯(xin)片(pian)后,它(ta)就再(zai)次进入神(shen)隐状态(tai),任你外界怎么(me)猜测,我(wo)自岿然不动。

这(zhei)一神隐就(jiu)神隐到了(le)今年9月。Groq被曝将参展美(mei)国计算机(ji)历史博物馆举办(ban)的AI硬件(jian)峰会,多少人(ren)正期待Groq成为这(zhei)场峰会的最大热点时,Groq又相当任性地撂挑子(zi)不(bu)干了(le),空(kong)留其logo显眼(yan)而(er)尴尬地留在了(le)横幅(fu)上。

撬走谷歌TPU核心团队的4/5,任性缺席美国AI硬件峰会,这家AI芯片创企在酝酿什么大招?

▲在AI硬件峰(feng)会上的Groq徽标和空椅子(zi)(图源:Tirias Research)

10月(yue)21日,Groq突(tu)然(ran)更新了博客(ke)《世(shi)界,认识Groq》。这一篇博客(ke),似乎在无声地(di)宣(xuan)告,Groq即将要高调(diao)地(di)回归(gui)大众视野(ye)。

撬走谷歌TPU核心团队的4/5,任性缺席美国AI硬件峰会,这家AI芯片创企在酝酿什么大招?

一、预告400TOPS算力的芯片

2017年还算是Groq有(you)点活跃的一年。

3月,Social Capital风险投(tou)资家、前Facebook高管Chamath Palihapitiya告诉美(mei)媒,他花了1.5年招(zhao)揽谷歌TPU背(bei)后(hou)的工(gong)程师。

4月(yue),Groq被报道拿到由Chamath Palihapitiya领投的1030万美元启动资金,这(zhei)是Groq第一次(ci)出现在公(gong)众视野。

7月(yue),赛(sai)灵(ling)思(si)前全(quan)球销(xiao)售(shou)执行(xing)副总(zong)裁Krishna Rangasaye加盟Groq,担任首席运(yun)营(ying)官(COO),不过现在Groq的COO已变成(cheng)Adrian Mendes。

11月,Groq在官网宣布(bu)要(yao)在2018年发布(bu)第(di)一(yi)代AI芯片产品,号(hao)称这款(kuan)芯片的运算(suan)速度将可以达到400 TOPS,每瓦特能(neng)进行8万亿次的运算(suan)。

而当时谷(gu)歌(ge)最新一代的TPU算力才达到180TOPS,这意味(wei)着Groq性能将超谷(gu)歌(ge)TPU两倍(bei)还多。

而此时距(ju)离Groq成立(li)(li)才(cai)短短一年,如果搁(ge)在其(qi)它创企身上(shang),可能(neng)还会被质(zhi)疑是说大(da)话,偏偏Groq由(you)Google X的前工(gong)程师道格(ge)拉斯·怀特曼(man)(Douglas Wightman)和乔纳森·罗(luo)斯(Jonathan Ross )等共(gong)同创立(li)(li)。早期谷歌TPU团队(dui)的十位核心成员中,有八位都来到了这(zhei)家公司。

撬走谷歌TPU核心团队的4/5,任性缺席美国AI硬件峰会,这家AI芯片创企在酝酿什么大招?

▲Groq创始(shi)人(ren)兼首席执行官Jonathan Ross

包括CEO 乔纳森·罗斯(Jonathan Ross)在内的Groq创始团队,是早期TPU十人核心设(she)计团队中的八人。

谷(gu)歌(ge)曾在短(duan)(duan)短(duan)(duan)约14个月的时间(jian)里发布首个TPU,Groq能在超短(duan)(duan)时间(jian)内展示其芯片似乎也不是什么难以理解的事情(qing)。

二、沉寂一年,突然回归

然而,在无数人的(de)翘首以盼中,Groq却并没(mei)有(you)如期亮出它(ta)们(men)打(da)磨(mo)的(de)核心利器。

时间一(yi)晃而(er)逝,转眼到(dao)了(le)今(jin)年9月(yue),美(mei)国(guo)证劵(juan)交易委员会公布了(le)一(yi)项文件,显(xian)示Groq正目(mu)标筹集约6000万美(mei)元的(de)资(zi)金。这一(yi)文件显(xian)示它已经融资(zi)超过(guo)5200万美(mei)元,至少(shao)有16位投资(zi)方为这新的(de)一(yi)轮(lun)融资(zi)做(zuo)出(chu)贡献(xian)。

撬走谷歌TPU核心团队的4/5,任性缺席美国AI硬件峰会,这家AI芯片创企在酝酿什么大招?

同样在(zai)9月,当大家都以为Groq要(yao)带着它(ta)(ta)的芯(xin)片产品一起露面了,它(ta)(ta)又出人(ren)意料的“放(fang)了AI硬件(jian)峰(feng)会的鸽(ge)子(zi)”。

当美(mei)媒(mei)终于联系上(shang)Jonathan Ross,他(ta)的回(hui)复却显得些微轻描淡写。

“我们(men)(men)(men)有一句话:展示(shi),不要(yao)告诉。”Jonathan Ross说(shuo),他们(men)(men)(men)本打算在AI硬件(jian)峰会上(shang)做演(yan)示(shi),但他们(men)(men)(men)不得不将资源(yuan)转移(yi)给客(ke)户,无法进行演(yan)示(shi),因此他们(men)(men)(men)决定退(tui)出(chu)。

或(huo)许正如Jonathan Ross所(suo)言(yan),Groq的(de)AI芯(xin)片(pian)产(chan)品(pin)已经获得客户的(de)认可,Groq终于开(kai)始主动(dong)揭开(kai)神秘的(de)面(mian)纱,以博客的(de)方式陆续透露出(chu)关于其芯(xin)片(pian)产(chan)品(pin)差异化的(de)拼图。

撬走谷歌TPU核心团队的4/5,任性缺席美国AI硬件峰会,这家AI芯片创企在酝酿什么大招?

在Groq官网的首页,Groq芯片(pian)的性能显示为400 TOPS,但除(chu)了知道这是INT8计算的最高性能,可以处理整(zheng)数与浮(fu)点运算外,我(wo)们尚未(wei)得知要达到这一性能还有哪些其他条件(jian)。

有(you)趣的是,尽管Groq创始团(tuan)队脱胎于谷(gu)歌TPU团(tuan)队,但他们既(ji)没有(you)在谷(gu)歌TPU,也没有(you)在GPU、GPU、FPGA等架构(gou)(gou)上做迭代,而是尝试一(yi)种新的体系架构(gou)(gou)。

撬走谷歌TPU核心团队的4/5,任性缺席美国AI硬件峰会,这家AI芯片创企在酝酿什么大招?

▲截(jie)至目前,Groq拥有70名全职(zhi)员(yuan)工,已筹集(ji)了6700万美元的资金(jin)

三、AI推理需要更简化、更可扩展的架构

当(dang)前,处理器架构(gou)的复杂性不仅阻碍开发(fa)人员生(sheng)产力(li),也阻碍着AI应用程(cheng)序和其他计算繁重工作负载的采(cai)用。

在Jonathan Ross看(kan)来(lai),由(you)于对(dui)传(chuan)统服务器群集的投资已(yi)达到计算成本(ben)壁垒(lei),处理(li)推理(li)任务的目(mu)标时获得大量(liang)(liang)的并(bing)行吞(tun)吐量(liang)(liang),而现(xian)有的设备(bei)已(yi)经被(bei)挤(ji)得水泄不通,即便增加物理(li)处理(li)器的数(shu)量(liang)(liang),也无(wu)法实现(xian)更快、更有效的神(shen)经网(wang)络处理(li)。

同时,CPU、GPU等标(biao)准计(ji)算体系结构挤满了(le)硬件功能和(he)元(yuan)(yuan)素,这些硬件和(he)元(yuan)(yuan)素对推理性能没(mei)有任何(he)帮助。为了(le)每秒执行越来越多的操作,芯片(pian)变得越来越大、越来越复杂,具有多个内核、多个线程(cheng)、片(pian)上网(wang)络和(he)复杂的控制电路(lu)。

为了提高软件性能(neng)和(he)输出,机(ji)器学(xue)习模型(xing)的(de)开发(fa)人(ren)员(yuan)要面对复(fu)杂(za)的(de)编程模型(xing)、安全(quan)问题(ti),以及由于处理抽(chou)象层(ceng)而(er)导(dao)致的(de)对编译(yi)器控(kong)制的(de)可见(jian)性的(de)丧(sang)失。

另(ling)外,据Ross回忆,谷歌Jeff Dean在TPU推出前曾做过(guo)数(shu)学运算,分享说他(ta)们虽(sui)然(ran)可(ke)以训练(lian)生产级(ji)别的模型(xing),但(dan)由于价格太昂贵,他(ta)们无力使用现有(you)架构来部署它们。

“如果他们要为所(suo)有(you)人部署语(yu)音(yin)识(shi)别(bie),那(nei)么(me)谷歌必(bi)须将(jiang)数(shu)据中心的数(shu)量增加2-3倍,再增加20到40个(ge)。这些(xie)成(cheng)本以十亿计(ji)(ji)。如果您仅出于语(yu)音(yin)识(shi)别(bie)的目的,以另一种方式(shi)对(dui)运算(suan)(suan)成(cheng)本进(jin)行(xing)数(shu)学(xue)计(ji)(ji)算(suan)(suan),则他们必(bi)须将(jiang)其计(ji)(ji)算(suan)(suan)能力提(ti)高一倍。”

要(yao)在这些约(yue)束(shu)条(tiao)件(jian)下(xia)获得更(geng)高(gao)的机器学习性能,需要(yao)依靠对(dui)硬件(jian)体系(xi)结构(gou)有深入了解(jie),并进行费力的手(shou)动优化。

撬走谷歌TPU核心团队的4/5,任性缺席美国AI硬件峰会,这家AI芯片创企在酝酿什么大招?

面对(dui)这一现状,Groq专门针对(dui)机器学习应用(yong)程序和其他(ta)计算密集型工(gong)作负载的(de)性(xing)(xing)能要求(qiu),设(she)计了一种更(geng)(geng)简(jian)化、更(geng)(geng)可(ke)扩(kuo)展的(de)新型处理(li)体(ti)系结(jie)构,以提供(gong)更(geng)(geng)高的(de)吞吐量和更(geng)(geng)易用(yong)性(xing)(xing)。

这种新(xin)架构降低(di)了(le)传统开(kai)发(fa)的复杂(za)性,使得(de)开(kai)发(fa)者可以(yi)专注于算法,而(er)无需考虑让其(qi)解(jie)决方案适应硬件(jian),从而(er)节省了(le)开(kai)发(fa)人员资源,也使大规模(mo)部署(shu)AI解(jie)决方案变(bian)得(de)更加容(rong)易(yi)。

四、Groq高性能架构的三大特点

根据Groq的(de)博客,Groq芯(xin)片是通(tong)用(yong)深度学习推理芯(xin)片,是高(gao)性(xing)能、低延迟、计算密集型(xing)工作负载的(de)理想平台。

具体而言(yan),其(qi)高性能架构的愿(yuan)景基于技术(shu)创新的三个关(guan)键领域:

1、软件定义的硬件

受软件优先思想的(de)启发,Groq将执行控制和数据流控制从硬件转移到了编译器。

撬走谷歌TPU核心团队的4/5,任性缺席美国AI硬件峰会,这家AI芯片创企在酝酿什么大招?

所有执行计划(hua)都在软件(jian)中(zhong)进行,从而释放了(le)宝贵的硅空间,并提(ti)供(gong)了(le)额外(wai)的内存(cun)带宽和晶体管来提(ti)高性(xing)能。

软件从本质上协调(diao)所有所需(xu)的数据流和(he)(he)时(shi)序,以确保计算不会发(fa)生停顿,Groq的芯(xin)片允许在编译(yi)时(shi)预先知道所有延(yan)迟(chi),从而使延(yan)迟(chi)和(he)(he)性能(neng)可预测。

2、芯片创新

Groq的(de)简化架(jia)构从芯片(pian)上去(qu)除(chu)了对(dui)AI没有任何处理(li)优(you)势的(de)多(duo)余电路,从而实现了更(geng)高效的(de)芯片(pian)设计,每平方毫米的(de)性能更(geng)高。

这(zhei)消(xiao)除了(le)对缓存、核心到核心通信、推测(ce)性(xing)和(he)无(wu)序执行(xing)的需(xu)求。

Groq的(de)芯片(pian)将大(da)量的(de)算术(shu)逻辑单元(ALU)与大(da)量的(de)片(pian)上存(cun)储器结(jie)合在一起,并具有超过60TB/s的(de)充(chong)足带宽来输送给大(da)量ALU。

根据EETimes看(kan)到的幻灯片显示,其芯(xin)(xin)片中三列ALU与两(liang)个(ge)大内(nei)存条交(jiao)错(cuo),ALU约占芯(xin)(xin)片面(mian)积(ji)(ji)的40%,内(nei)存接近芯(xin)(xin)片面(mian)积(ji)(ji)的50%。

通过增加跨芯片(pian)总(zong)带宽和(he)用于计算的(de)晶体(ti)管总(zong)数的(de)更(geng)高百分比,可以实现(xian)更(geng)高的(de)计算密度(du)。

3、最大程度提升开发速度

Groq系统(tong)体系结(jie)构的(de)简单性消除(chu)了手工优化,配置(zhi)文件和主(zhu)导传(chuan)统(tong)以硬件为中心的(de)设计方法的(de)专业(ye)设备知识的(de)需求(qiu)。

相反,Groq专注(zhu)于(yu)编译器,从而(er)使软件需求能(neng)够驱动硬件规范。其编译器已经设法(fa)将编译时间压缩至秒(miao)。

撬走谷歌TPU核心团队的4/5,任性缺席美国AI硬件峰会,这家AI芯片创企在酝酿什么大招?

在编译时,开发(fa)人(ren)员(yuan)可以精确获知内存使用情况(kuang)、模型效率(lv)和延迟。

这听起来(lai)可能不是(shi)特别重要,但随着(zhe)芯(xin)片规模扩大,在数据中心进行扩展(zhan)会变得更困难,假设(she)扩展(zhan)到数千个芯(xin)片,如果有(you)一(yi)个因(yin)为(wei)延(yan)迟慢(man)了,那(nei)么(me)有(you)60%的机会每(mei)一(yi)个查询都将是(shi)慢(man)的。

Groq芯(xin)片(pian)的这种确定性设计,意味着用户可以(yi)在将多(duo)芯(xin)片(pian)扩展连接(jie)时,精(jing)确把(ba)控运行一(yi)次(ci)计算需(xu)要(yao)多(duo)长(zhang)时间(jian),使得用户可以(yi)更加专注于算法并更快地部署解决(jue)方案,从而简化了生产(chan)流程。

四、像,但不是FPGA

虽然软件定义的(de)(de)硬件与确(que)定性(xing)操作(zuo)相结合的(de)(de)概(gai)念可能使人(ren)想(xiang)到FPGA,但(dan)Jonathan Ross强调(diao),Groq的(de)(de)芯片绝对不(bu)是FPGA。

Ross表(biao)(biao)示(shi),FPGA可在每(mei)个周(zhou)(zhou)期重新配置,这(zhei)与他(ta)们的芯(xin)片(pian)(pian)工作(zuo)原理相似(si),但Groq的芯(xin)片(pian)(pian)不是(shi)FPGA,它没(mei)有查找表(biao)(biao),用户可逐周(zhou)(zhou)期完(wan)全更(geng)改芯(xin)片(pian)(pian)的功能(neng),能(neng)确切知(zhi)道芯(xin)片(pian)(pian)的每(mei)个部分在任何(he)时(shi)刻都在做什么,这(zhei)种(zhong)控制(zhi)级别非常精细。

此前另一家长期隐身的AI芯片创企SambaNova也有提出(chu)软件定义硬(ying)件的概念,他们正(zheng)在开发可重构(gou)的数据(ju)流体系结构(gou)并致力于用于编程加速器(qi)的语言(yan)。

在Tirias研(yan)究首(shou)席分析师(shi)Kevin Krewell看(kan)来,Groq的(de)方法与常规FPGA和SambaNova的(de)方法就是很像,而且他(ta)对迄今(jin)为止Groq所分享的(de)内容(rong)表达一些(xie)担忧(you)。

Kevin Krewell担心的是(shi)其每平方毫米的效率计算,设计是(shi)静态编译的,这意味着一次只能处(chu)理一种类型的机(ji)器学(xue)习(xi)算法(fa),而某些任务需要(yao)多种不同的机(ji)器学(xue)习(xi)模(mo)型,比如图像处(chu)理和语音处(chu)理。

五、目标AI推理,适合自动驾驶与金融

Groq工程部副(fu)总裁Michelle Tomasko表示,有硅片后(hou),他(ta)们第一(yi)天就上(shang)电了,第一(yi)周就在芯(xin)片上(shang)运(yun)行了程序,六周后(hou)又(you)向客户提供(gong)了样品(pin)。

Tomasko详细介(jie)绍了TSP的确定性将如何改善客户的系统(tong)验(yan)证时间,并补充说(shuo),能够在芯片推出之前就很(hen)好地交付(fu)编译器(qi)的功能,意味着客户可以成功地将他们的模型面(mian)向TSP的体系结构(gou)。

撬走谷歌TPU核心团队的4/5,任性缺席美国AI硬件峰会,这家AI芯片创企在酝酿什么大招?

▲Groq工(gong)程部副总裁Michelle Tomasko

在(zai)(zai)加(jia)入Groq之(zhi)前,Tomasko曾在(zai)(zai)谷歌工作了3年,此前还曾在(zai)(zai)NVIDIA工作。

她(ta)说,NVIDIA可以做暴力叠(die)加,而Groq这(zhei)种架构能能迅速灵活(huo)地执行任务(wu),这(zhei)是他们(men)领先于NVIDIA的关键。

撬走谷歌TPU核心团队的4/5,任性缺席美国AI硬件峰会,这家AI芯片创企在酝酿什么大招?

▲Groq首席运(yun)营官Adrian Mendes

Groq的目(mu)标是数据(ju)中心和自动驾驶汽车(che)中的推理(li)应用。

其(qi)首席(xi)运营(ying)官Adrian Mendes表(biao)示,“微秒级”的延迟与整体确定性相结(jie)合,使(shi)得Groq的芯片(pian)适合于(yu)自(zi)动(dong)驾驶、金(jin)融等安全关键型(xing)应用。

“从(cong)8月(yue)开始,我们已(yi)经(jing)向少数客户提供了(le)硬(ying)件。” Mendes说,“我们的硬(ying)件现在(zai)位(wei)于(yu)客户数据中心(xin)中……他们正(zheng)在(zai)这些板上运行程序,并从(cong)中获得(de)很好(hao)的结(jie)果。”

结语:AI推理市场行路难

Groq在创办之初的(de)确(que)带给了(le)人们(men)很多的(de)期(qi)待,但不可否认(ren)的(de)是,它的(de)神(shen)秘主义尽管(guan)使得部分人对它更加感兴趣(qu),却也伴随着(zhe)AI芯片热度(du)的(de)退却,消磨了(le)大(da)众的(de)热情和耐心。

从当前透露的信息来看,有(you)着高起点的Groq确实有(you)很多关于AI推理市场(chang)(chang)的思(si)考,我们也可以看到其创(chuang)新架构的核心组(zu)成就是(shi)编译器,但是(shi)这一架构究竟能(neng)不能(neng)获得足(zu)够高的市场(chang)(chang)反响(xiang),还需要等时(shi)间(jian)来证明(ming)。

就目前AI芯片市场格局,Groq要想突围AI推理市场还面(mian)临(lin)很(hen)多(duo)(duo)阻(zu)碍。且(qie)不(bu)论NVIDIA、英特尔依(yi)然(ran)是阻(zu)挡(dang)在众多(duo)(duo)创(chuang)企面(mian)前的(de)两座大山,要想和(he)巨头硬碰硬,不(bu)仅要有源源不(bu)断的(de)资(zi)金支持,还要构建能(neng)支持各种主(zhu)流通用机器学(xue)习框架的(de)软件工具,这(zhei)对大多(duo)(duo)数AI芯片创(chuang)企来(lai)说,都是亟(ji)待解决的(de)难(nan)题(ti)。

原(yuan)文(wen)来自:ElectronicDesign,EE Times,Groq