芯东西(ID:aichip001)
文 | 心缘

​芯(xin)东西6月(yue)28日(ri)报道,2020年的(de)突发(fa)事(shi)件拨乱了太多产(chan)业的(de)阵脚,AI芯(xin)片产(chan)业也(ye)似乎热度(du)渐熄。一(yi)家英国AI芯(xin)片创企却在这一(yi)时期,稳(wen)稳(wen)地切入国内科(ke)技巨头阿里(li)和百度(du)的(de)生态(tai)圈(quan)。

就在今年5月,成立刚满四年的英国初创公司Graphcore分别公布和阿里巴巴、百度合作的新动向。阿里宣布Graphcore支持ODLA的接口标准,百度宣布Graphcore成为飞桨硬件生态圈的创始成员之一。

同月,在英国Intelligence Health峰会上,微软机器学习科学家分享用Graphcore的IPU芯片训练微软COVID-19影像分析算法CXR,能够在30分钟之内完成在NVIDIA GPU上需要5个小时的训练工作量。

英国AI芯片独角兽勇闯中国!搭上阿里百度,揭秘硬核技术▲300W功耗情况下,IPU(左)以2000 img/s的平(ping)均(jun)速(su)率(lv)进行训练(lian),NVIDIA V100平(ping)均(jun)速(su)率(lv)约为166 img/s,速(su)度相差10倍以上

也(ye)是在这个月(yue),英伟达(NVIDIA)为AI和数据科学打造(zao)的最强GPU A100横空(kong)出世(shi),给布局云端AI芯片(pian)市场(chang)的其他公司(si)带来新(xin)的压(ya)力。

不过Graphcore显得(de)相对淡定。Graphcore高级(ji)副总裁兼中国(guo)区总经(jing)理卢涛相信,即便是Graphcore第一代(dai)IPU产品也不会输于A100,今(jin)年他(ta)们(men)还将发(fa)布下一代(dai)7nm处理器。

Graphcore的自(zi)信并非空穴(xue)来风,凭借创新芯片架构IPU,这家成(cheng)立刚满(man)四年的英国初创公司,不仅(jin)有DeepMind联(lian)合创始人(ren)Demis Hassabis、剑桥大学教授兼Uber首席科学家Zoubin Ghahramani、加州大学伯克利教授Pieter Abbeel、OpenAI多位联(lian)合创始人(ren)等多位AI大牛为(wei)其背书,还吸引(yin)到(dao)微软(ruan)、博(bo)世、戴(dai)尔、三星、宝(bao)马等巨(ju)头注资。

这(zhei)样一个在AI芯片界猛刷(shua)存在感的明星创企,背后有着怎样的底气?

近(jin)日,Graphcore高级副总裁兼中国(guo)区总经理(li)卢(lu)涛、 Graphcore销售总监朱江第一(yi)次在中国(guo)详尽(jin)地(di)介绍(shao)了(le)Graphcore的(de)核心(xin)芯(xin)片架(jia)构(gou)及产品、配套(tao)软件工具链,并分享了(le)其芯(xin)片在五(wu)类垂直场景(jing)的(de)应用(yong)实(shi)例及性(xing)能表(biao)现(xian)。

一、英国小镇里诞生的AI芯片独角兽

2012年(nian)1月,雪后的(de)英国(guo)小镇巴斯(si),Nigel Toon与(yu)Simon Knowles正在讨论一(yi)个改变AI芯片架构的(de)创新设想。

英国AI芯片独角兽勇闯中国!搭上阿里百度,揭秘硬核技术▲Graphcore CEO Nigel Toon和CTO Simon Knowles

经过四(si)年模拟了数百种(zhong)芯片布局的(de)(de)计算机测试方法,两人(ren)于(yu)2016年6月在英(ying)国布里斯托成立AI芯片公司Graphcore,此后继续处于(yu)神秘的(de)(de)研(yan)发状态(tai)。

知名资本伸出的橄榄枝,使得这家创企始终处于聚光灯下,宝马、博世、戴尔、微软、三星等巨头纷纷参与投资,至今Graphcore累计融资超过4.5亿美元,整体估值约为19.5亿美元。

英国AI芯片独角兽勇闯中国!搭上阿里百度,揭秘硬核技术

不仅(jin)如此,数位AI大牛对其IPU芯片架构赞誉(yu)有(you)加。

英国半导体之父、Arm联合创始人Hermann爵士曾评价说:“在计算机历史上只发生过三次革命,一次是70年代的CPU,第二次是90年代的 GPU,而Graphcore就是第三次革命。 

AI教(jiao)父Geoff Hinton教(jiao)授也(ye)说(shuo)过:“我们需要不同类型的(de)(de)计算机来处理一些新(xin)的(de)(de)机器学(xue)习(xi)的(de)(de)系统。”他指出(chu)IPU就(jiu)是(shi)这样一个系统。

到(dao)2019年11月,Graphcore潜(qian)心打造的IPU产品官(guan)宣量产,随后与微(wei)软、百度、Qwant、Citadel、帝国理(li)工学(xue)院、牛津大学(xue)等多个合(he)作伙(huo)伴、云计算厂商、研究(jiu)实验室以(yi)及高校等展开了(le)相(xiang)关合(he)作。

如(ru)今,Graphcore所做的产品(pin)包括了硬件、软件和IPU的系统解决方案。

IPU是(shi)Graphcore专(zhuan)为机器智能设计的(de)创新(xin)处(chu)理器架构,宣称在现有(you)及下一代(dai)模(mo)型(xing)上,性(xing)能远超NVIDIA V100 GPU。

例如它能将自然语言处理(NLP)处理速度可提升20%-50%,为图像分类带来6倍的吞吐量而且是更低的时延,在一些金融模型方面训练速度能够提高26倍以上。 

目前IPU已实现量产,通(tong)过访问微(wei)软Azure等云计算平台,或者购买戴尔服务器等产品,均可(ke)获(huo)取IPU资源。在国内,Graphcore也正在与金山云合作,拟上线(xian)一(yi)个针对中国开发者和创新者的云业(ye)务。

英国AI芯片独角兽勇闯中国!搭上阿里百度,揭秘硬核技术

除(chu)了芯片产品走向落地,在过去(qu)6-12个月,Graphcore在全(quan)球(qiu)版图快速铺开,迄今有全(quan)球(qiu)员工450人,分布在北(bei)京(jing)、上海、深圳(zhen)、台北(bei)、布里斯托、伦敦、剑桥、挪威、奥斯陆、西(xi)雅图、帕拉(la)奥图、纽约、奥斯汀、东京(jing)、首尔等地。

二、以计算图为表征的创新AI芯片架构

Graphcore的自(zi)研芯片架构(gou)诞生的背(bei)景,源于(yu)过去几年(nian)AI算法模型规模呈指数级增长,需要更适(shi)宜的全(quan)新处理(li)器架构(gou)。

相较(jiao)传统科学计(ji)(ji)算或高性能计(ji)(ji)算(HPC),AI或者说机器智(zhi)能有一些特(te)性,包括大规模并行就散、稀(xi)疏(shu)数据(ju)结构、低精度计(ji)(ji)算,以及在训练推(tui)理过程中的(de)数据(ju)参数复用、静态图(tu)结构。

Graphcore IPU即是针对计(ji)(ji)算(suan)图的处理设计(ji)(ji)而(er)成,相比传统智能处理器,IPU有三个核心区别:采用(yong)MIMD架构(gou)、所有模型在片内处理、可解决大(da)规(gui)模并(bing)行计(ji)(ji)算(suan)处理器核之间的通信(xin)效率。

具体而言,IPU采用大规模并行MIMD的处理核,抛弃了外部DDR,在片内做到300MB的大规模分布式片上SRAM以打破内(nei)存带宽对整(zheng)体性能构成的瓶(ping)颈(jing)。

相较CPU的DDR2子系统或是GPU的GDDR、HBM来说,IPU这一设计可将性能提升10-320倍。与访问外存相比较,时延基本为1%,可忽略不计。

英国AI芯片独角兽勇闯中国!搭上阿里百度,揭秘硬核技术

当前已量产的IPU处理器为GC2,拥有256亿个晶体管,120瓦功耗下,混合精度算力可达125TFLOPS

GC2采用台积电16nm工艺(yi),片(pian)内包(bao)含(han)(han)1216个(ge)独立(li)的(de)IPU处理器核(he)心(Tile),整个(ge)GC2包(bao)含(han)(han)7296个(ge)线程,支持7296个(ge)程序并行(xing)运行(xing)。其内存带宽为45TB/s、片(pian)上交换是8TB/s,片(pian)间IPU-Links为2.5Tbps。

为了解决并行硬件的高效编程问题,IPU通过硬件支持BSP协议,并通过BSP协议把整个计算逻辑分成了计算、同步、交换

这对软(ruan)件工程(cheng)(cheng)师和开发者来说非常易于编程(cheng)(cheng),因为不必处理locks这个概念,也(ye)不必管任务具体(ti)在哪个核上运行。

目前IPU是世界(jie)上目前第(di)一款BSP处理器,BSP技术在谷歌、Facebook、百度之类的大规模(mo)数据中心均有使(shi)用。

英国AI芯片独角兽勇闯中国!搭上阿里百度,揭秘硬核技术

卢涛介绍(shao)说,IPU重点面(mian)向云端训练(lian)(lian)以及对精度和(he)延时要求(qiu)高的(de)推(tui)理(li)场(chang)景(jing),还(hai)有一(yi)些训练(lian)(lian)和(he)推(tui)理(li)混合的(de)场(chang)景(jing)。

在(zai)精度方面,IPU当前不(bu)支持整数(shu)int8,主要(yao)支持FP16、FP32以及混合精度。

当前应用较大的(de)主流计算机视觉类(lei)模型以(yi)int8为(wei)(wei)主,而(er)自然语言(yan)处理(li)推理(li)以(yi)FP16、FP32为(wei)(wei)主流数(shu)据格式(shi),IPU使用FP16精度在ResNeXt、EfficientNet等新兴视觉模型中(zhong)性能功耗比同(tong)样具有(you)优势。

未来,Graphcore的推(tui)进策略还是(shi)训练和推(tui)理并行,但会更(geng)聚(ju)焦于一(yi)些对精度(du)和时延(yan)要求(qiu)更(geng)低(di)、对吞吐量要求(qiu)更(geng)高的场景。另外,他们也看到在(zai)推(tui)荐算法等应用出现一(yi)些希望同时实(shi)现训练和推(tui)理的需(xu)求(qiu)。

三、软件支持容器化部署,上线开发者社区

硬件芯片架(jia)构是基础,而软件则是提升用户体验的(de)关键利器(qi)。

对于AI芯片来说,芯片研发出来只是第一部分,要能落地到产业中,还需展现出色的可移植性、可开发性、可部署性,能提供完善的工具链和丰富的软件库,可实现与主流机器学习框架无缝衔接,而整个(ge)链条全部打通需要(yao)非(fei)常大的投入。

今年5月26日,全球知名科技分析机构Moor Insights & Strategy曾发表了一篇研究论文 《Graphcore的软件栈:Build To Scale》,其中写道:“Graphcore是我们目前已知的唯一一家将产品扩展到囊括如此庞大的部署软件和基础架构套件的初创公司。

卢涛(tao)认为,对于AI芯片来(lai)说(shuo),真正商(shang)业化(hua)的衡量标准在于三点:是(shi)否(fou)有平台(tai)化(hua)软件(jian)的支(zhi)持、是(shi)否(fou)有大规(gui)模商(shang)用(yong)部署软件(jian)的支(zhi)持、是(shi)否(fou)能(neng)实现(xian)产品(pin)化(hua)的部署。

英国AI芯片独角兽勇闯中国!搭上阿里百度,揭秘硬核技术

对此,Graphcore的(de)Poplar SDK提供了完整的(de)软件(jian)堆栈来执行(xing)其计算(suan)图工具链,有(you)四个主要特性:

1)开放且可扩展的Poplar库:目前已提供750个高(gao)性能计算元素的50多(duo)种(zhong)优化功(gong)能,修改和(he)编写自定义库(ku)。

2)直接部署:支持容器化部署,可快速启动并且运行。标准生态方面,可支持Docker、Kubernetes,还有像微软的Hyper-v等虚拟化的技术和安全技术。 

3)机器学习框架支持:支持TensorFlow 1、TensorFlow 2、ONNX和PyTorch等标准机器学习框架,很快也将支持百度飞桨。 

4)标准生态支持:通(tong)过(guo)微软Azure部署、Kubernetes编排、Docker容(rong)器(qi)以及Hyper-V虚拟化和安全性,已(yi)生产就绪。

目前Poplar SDK支持最主要的三个Linux操作系统发行版本:ubuntu、RedHat Enterprise Linux、CentOS。 

ubuntu是(shi)迄今在(zai)AWS上最流行(xing)的一(yi)个操作系(xi)统,RedHat Enterprise Linux对一(yi)些企业(ye)级用户做(zuo)私(si)有(you)云非常重(zhong)要,而(er)CentOS在(zai)中国互联网公司中应用广(guang)泛。

今年5月,Graphcore推出分析工具PopVision Graph Analyser,并(bing)上线Poplar开发者文(wen)档和社区。

使用IPU编程时(shi),可(ke)借助PopVision可(ke)视化图形展示工具来分(fen)析软件运行的情况、效率调(diao)(diao)试(shi)调(diao)(diao)优(you)等。

Poplar开发(fa)者(zhe)文(wen)档和社区中提供(gong)了大量的Poplar user guide和文(wen)档。开发(fa)者(zhe)可通过www.graphcore.ai/developer访问。

英国AI芯片独角兽勇闯中国!搭上阿里百度,揭秘硬核技术

此外,Graphcore在Stack Overflow上也有针对IPU开发者的知识门户网站,并在知乎上开辟了新的创新者社区,未来通过知乎将更多深度文章呈现给开发者和用户。 

据卢涛(tao)介绍,有些国(guo)内(nei)用(yong)(yong)户反馈,认为Poplar的(de)应用(yong)(yong)性优于CUDA,执行同样的(de)任务,在Poplar上开(kai)发速度(du)更(geng)快。

四、案例源代码可下载,秀五大垂直应用

当前(qian)基于IPU的应(ying)用(yong)已(yi)覆盖了机器学习的各个应(ying)用(yong)领(ling)域,包括自然语言处理(li)(NLP)算法(fa)、图(tu)像/视频处理(li)、时序分(fen)析、推荐/排(pai)名以(yi)及(ji)概率(lv)模(mo)型(xing)。

英国AI芯片独角兽勇闯中国!搭上阿里百度,揭秘硬核技术

这(zhei)些(xie)应用(yong)案例和模型已(yi)在TensorFlow、ONNX和Graphcore PopARTTM上可(ke)用(yong),所有源代码(ma)均可(ke)在Github上下载。

相较NVIDIA V100,IPU在自然语言处理、概率算(suan)法(fa)、计算(suan)机视觉算(suan)法(fa)等应用均展现出性能优势。

英国AI芯片独角兽勇闯中国!搭上阿里百度,揭秘硬核技术

▲对比GPU,IPU在运行时(shi)展现的性(xing)能优(you)势

例如训练BERT,在NVLink-enabled的平台(tai)上大约要50多小时才能做到一定精度(du),而在基于IPU的戴尔DSS-8440服务(wu)器上只需36.3小时,速度(du)提高25%。

做BERT推理时,同一时延,IPU吞吐量(liang)比(bi)V100高一倍(bei);在(zai)训练MCMC时,IPU可将性能提升至V100的26倍(bei)。

运行ResNeXt推理时,IPU可实现6倍的吞吐量和1/22的延时。一些搜索引擎公司、医疗影像公司用户已通过IPU来使用ResNeXt的服务。 

Graphcore销售(shou)总监(jian)朱江分享(xiang)了IPU在金融(rong)、医疗、电信、机器人、云与互联网等(deng)五类垂直领域(yu)的应用(yong)实(shi)例。

1、金融:LSTM推理性能提升260

IPU在(zai)算法交易、投资(zi)管(guan)理(li)、风险管(guan)理(li)及诈骗识别领域等主要金融领域均表现出显著(zhu)优势。

例(li)如(ru)在(zai)推理(li)方面(mian),延迟性(xing)能(neng)不(bu)(bu)变时,IPU可将长短期(qi)记忆(yi)(LSTM)模型吞吐量提升(sheng)260倍,对于(yu)不(bu)(bu)可向量化模型亦能(neng)取得非常(chang)好的效果。

英国AI芯片独角兽勇闯中国!搭上阿里百度,揭秘硬核技术

在训练方面(mian),IPU可将(jiang)MCMC概率(lv)模型(xing)的采样(yang)速(su)度(du)提(ti)(ti)高26倍,可进行阿(a)尔法预(yu)测(ce)和(he)期(qi)权定价,并(bing)能(neng)将(jiang)强化学(xue)习的训练速(su)度(du)提(ti)(ti)升13倍。

采用多层感(gan)知(zhi)器(MLP)预测销售结果(guo)时,相较Batch Size为(wei)512K的GPU,IPU吞吐量可提升5.9倍以(yi)上。

2、医疗和生命科学:影像分析能效提升4

医(yi)(yi)(yi)疗(liao)和生命科(ke)学包括新药研发、医(yi)(yi)(yi)学图像、医(yi)(yi)(yi)学研究、精准医(yi)(yi)(yi)疗(liao)等领域,涉及大量复杂的(de)实验,加速计算过程对一些医(yi)(yi)(yi)学成果的(de)更(geng)快(kuai)产出至(zhi)为重要。

微(wei)软用ResNeXt模型(xing)做颅内出(chu)血医学影(ying)像(xiang)分析时,使用IPU较V100 GPU速度提高(gao)2倍(bei),而功耗仅为V100的一(yi)半。

英国AI芯片独角兽勇闯中国!搭上阿里百度,揭秘硬核技术

3、电信:加速5G创新应用

在电信领域(yu),智(zhi)慧网络、5G创新(xin)、预测性维护和(he)客户体验方面均可应用(yong)IPU带来加(jia)速(su)体验。

例(li)如(ru),机器智能可帮助分(fen)析无线数据的(de)一些变化(hua),运行LSTM模(mo)型进行网络(luo)流量矩阵预测时(shi),采用IPU性(xing)能比GPU提升超过(guo)260倍。

英国AI芯片独角兽勇闯中国!搭上阿里百度,揭秘硬核技术

网络(luo)切片和(he)资源管理(li)是5G中的一个特色,需要大量学习没(mei)被标记(ji)过(guo)的数(shu)据,需要应用强化(hua)学习模(mo)型,而在IPU上运(yun)行强化(hua)学习,训练吞吐量相较GPU最多可提高13倍。

4、机器人:解决经典光束法平差加速问题

在机器(qi)人领域,伦(lun)敦帝国理工学(xue)院Andrew Davison教(jiao)授带领的(de)(de)机器(qi)人视(shi)觉小组(zu)在今年3月发(fa)表的(de)(de)论文中采用IPU来开发(fa)新算法(fa),用以优化空间(jian)人工智能的(de)(de)效率。

相较(jiao)使用Ceres中央处理器(qi)库的1450毫(hao)秒(miao)(miao),IPU处理器(qi)仅在40毫(hao)秒(miao)(miao)内就解(jie)决了真正的光束法平差(Bundle Adjustment)这(zhei)一经典的计算机视觉问题。

5、云与互联网:通过微软Azure开放

云与互(hu)联网是Graphcore早期(qi)及现在(zai)一(yi)直主要推广(guang)的一(yi)个重要领域。

当前微软在(zai)Azure公有云上已面向全球客户开(kai)放(fang)IPU公有云服务。此外,微软在(zai)一些自然语言处理、计算机视(shi)觉(jue)应用中已使用IPU实现加速。

另(ling)外(wai)欧(ou)洲搜索引擎公司也使(shi)用IPU进行ResNeXt模型推(tui)理,做了一(yi)个(ge)搜图(tu)识别应用,将性能(neng)提升3.5倍以上(shang)。

结语:即将接受中国市场的检验

今年(nian)疫(yi)情拖累全球许多(duo)行业的发(fa)(fa)展,但在卢涛看来,AI领域(yu)非但不会(hui)(hui)走向(xiang)低潮,反而会(hui)(hui)有很大(da)发(fa)(fa)展,尤其是自然语言(yan)处理(li)类(lei)算法的发(fa)(fa)展会(hui)(hui)催生大(da)量新(xin)应用。

疫(yi)情在全球范(fan)围内推动了(le)数字(zi)化的加速(su),亦会推动数据中心(xin)等算力基础设施的建设进(jin)程。

卢涛认为,2020年是(shi)对(dui)AI芯片(pian)非常(chang)关(guan)键的一(yi)年,如(ru)果企业拿不出AI芯片(pian)产品,或者对(dui)软件不够重视,对(dui)后续(xu)(xu)持续(xu)(xu)化(hua)投入或将是(shi)很大的挑战。

从Graphcore与阿里(li)、百度(du)的合作来(lai)看(kan),该公司今年在(zai)中国市场的推进明显提速(su)。

尽管Graphcore在中国市场的整体启动较北美地区晚了一年左右,但卢涛期望,中国市场能在Graphcore全球市场占比达40%-50%

此外,Graphcore也希望针对(dui)中(zhong)国市场(chang)的(de)(de)需求,做产品的(de)(de)定制化演进(jin)。

据(ju)卢(lu)涛介绍,Graphcore有两支技术(shu)团(tuan)队(dui),一个是以定(ding)制(zhi)开发(fa)为主的工程技术(shu)团(tuan)队(dui),另一个是以对用(yong)户的技术(shu)服务为主的现(xian)场(chang)应用(yong)团(tuan)队(dui)。

其(qi)中(zhong)(zhong)工(gong)程技(ji)术团队承担两(liang)个(ge)方面的(de)工(gong)作(zuo):一(yi)是(shi)根据(ju)中(zhong)(zhong)国本地AI应用的(de)特点及需求,将一(yi)些AI算法模型在IPU上(shang)实现落地;二是(shi)根据(ju)中(zhong)(zhong)国本地用户对于(yu)AI的(de)稳定性学习(xi)框(kuang)架平(ping)台软件方面的(de)需求,做功能性的(de)一(yi)些开发加强的(de)工(gong)作(zuo)。

从上述种种应用(yong)案例来看,Graphcore已初(chu)步证(zheng)明(ming)其(qi)创新IPU架构在多类AI应用(yong)上的(de)出色训练(lian)和推理表(biao)现。而Graphcore还会继续“练(lian)内功、打(da)基(ji)础”,攻克(ke)技(ji)术(shu)难题(ti),加固技(ji)术(shu)实(shi)力。

不(bu)过芯(xin)片和相关软(ruan)件工具的(de)落地(di)只是第(di)一步,真正商业(ye)化战果如何,还要看市场(chang)给出的(de)回音(yin)。