芯东西(公众号:aichip001)
文 | 心缘

面(mian)对巨头环伺的(de)云(yun)端AI芯片战场,一家(jia)中(zhong)国AI芯片创企刚刚吹(chui)响(xiang)冲(chong)锋的(de)号角。

就在昨日,燧(sui)(sui)原科技官宣了其首款云(yun)(yun)端训(xun)练芯片邃思DTU、云(yun)(yun)端训(xun)练加(jia)速卡云(yun)(yun)燧(sui)(sui)T10及(ji)计(ji)算(suan)(suan)及(ji)编程平台驭(yu)算(suan)(suan),云(yun)(yun)燧(sui)(sui)T10单卡单精度算(suan)(suan)力(li)达到20TFLOPS,放在全球(qiu)云(yun)(yun)端训(xun)练芯片中比较也丝(si)毫不落(luo)下风。

解密燧原云端训练芯片背后的底牌

技术(shu)难、成(cheng)本高、风险大、回报周期漫长等因素宛(wan)如一(yi)座座高山,将(jiang)许(xu)多对(dui)造芯(xin)心(xin)向(xiang)往之的创业者(zhe)拒在云(yun)端(duan)训练(lian)芯(xin)片(pian)的门(men)外。燧原科技创始人却毫不犹(you)豫地选择先(xian)攻克(ke)云(yun)端(duan)训练(lian)方向(xiang),而且从启动研发到开始量产首款云(yun)端(duan)训练(lian)芯(xin)片(pian)只用了短(duan)短(duan)20个(ge)月。

这家(jia)不足(zu)两岁的(de)AI芯(xin)片创(chuang)企,凭什(shen)么直攻这一AI芯(xin)片界(jie)难度最(zui)高的(de)领域?它的(de)创(chuang)业(ye)团队有怎(zen)么样的(de)技术基因,能否支(zhi)撑(cheng)起云端训(xun)练(lian)产品的(de)研发(fa)需求?面对强(qiang)手如林(lin)的(de)国际战(zhan)场(chang),它有哪些(xie)差异(yi)化打法(fa)?

通过(guo)与燧原(yuan)(yuan)科(ke)(ke)技(ji)创始(shi)人兼CEO赵立东、燧原(yuan)(yuan)科(ke)(ke)技(ji)创始(shi)人兼COO张亚林深入(ru)沟通,芯东西一步步还原(yuan)(yuan)燧原(yuan)(yuan)科(ke)(ke)技(ji)首款云端芯片背后(hou)的(de)技(ji)术底牌,两(liang)位创始(shi)人也向我们(men)系统展示了(le)燧原(yuan)(yuan)的(de)业务(wu)部(bu)署(shu)和落(luo)地策(ce)略。

一、AMD老兵创业,曾领导研发XBOX ONE和小霸王游戏机主芯片

燧原科技的两(liang)位创始人(ren)赵立东(dong)和(he)张(zhang)亚林在AMD工作时,就曾(ceng)是配合(he)默(mo)契的老搭(da)档。

2008年1月(yue),张亚(ya)林刚加入AMD,赵(zhao)立(li)东(dong)是他(ta)的(de)直属老(lao)板。两个人合作了大(da)约五年,赵(zhao)立(li)东(dong)负责(ze)整(zheng)个团队(dui)的(de)构建、项目争(zheng)取,张亚(ya)林做(zuo)执行和芯片的(de)产出。

解密燧原云端训练芯片背后的底牌

▲燧原科(ke)技COO张亚林

风(feng)靡全球的家用(yong)游戏机微软XBOX ONE系列,采用(yong)的主(zhu)芯片(pian)即是由张亚林在AMD上(shang)海(hai)研(yan)(yan)发中心领导研(yan)(yan)发。

据张亚林介绍,游(you)戏(xi)机芯(xin)片(pian)设计与云端芯(xin)片(pian)设计有共(gong)通之初,都是大芯(xin)片(pian),而大芯(xin)片(pian)设计有一套(tao)严(yan)格的方(fang)法学,芯(xin)片(pian)越大,整个设计难度也会(hui)呈指数级上(shang)升(sheng)。

以(yi)微软XBOX ONE主芯片为例,它既要跑操(cao)作(zuo)系统(tong),又要能跑游戏(xi),是一块由CPU+GPU结(jie)合的APU,设(she)计(ji)难度非(fei)常高。

挑战不(bu)止在设(she)计本身,还有(you)芯片工程化问(wen)题。

像XBOX ONE这(zhei)样一(yi)年需量产(chan)几(ji)千万台的游(you)戏主机,要求大(da)芯(xin)片(pian)能(neng)尽快(kuai)量产(chan)。这(zhei)也是(shi)国产(chan)大(da)芯(xin)片(pian)企(qi)业行路艰(jian)难的核(he)心原因之一(yi)。

经过(guo)多(duo)个(ge)世界级(ji)芯片项目的磨砺,赵立东和张亚林(lin)都(dou)积累(lei)了深厚的芯片设计(ji)和工程(cheng)化(hua)经验(yan)。

解密燧原云端训练芯片背后的底牌

▲燧原科技CEO赵立(li)东

2014年末(mo),两人的同事关系暂时画上(shang)句(ju)点。赵立东跳槽(cao)到紫(zi)光通信科技集团任副总裁,张亚林(lin)仍然(ran)留在AMD。

“我和立东在AMD有一个约(yue)定,”张亚林回(hui)忆道(dao),“希(xi)望为中(zhong)国做一些中(zhong)国人的本土化项目。”

2016年,机会来了。老(lao)牌国产(chan)游戏机品牌小霸王(wang)在中(zhong)山(shan)重新崛起,交给AMD大(da)笔费(fei)用(yong)来做中(zhong)国自主品牌的(de)游戏机项(xiang)目,这个项(xiang)目几经辗转到了张亚林(lin)手中(zhong),目标是造出一(yi)颗超大(da)型芯片,使小霸王(wang)游戏机的(de)性能超过当时最(zui)先进的(de)XBOX ONE的(de)50%。

“我(wo)觉得,那是我(wo)留在(zai)AMD的(de)最后一个(ge)(ge)梦想。”这一项目在(zai)2017年9月(yue)整(zheng)体收尾,张(zhang)亚林选择离开,与时任紫(zi)光集团副(fu)总裁(cai)的(de)赵立东再(zai)次会(hui)合,投身于另一个(ge)(ge)颇具挑战(zhan)性(xing)的(de)领域——云(yun)端AI芯片。

二、政策支持,腾讯投资,人才技术均已就绪

当他(ta)们(men)选择创立燧原科技并定下云(yun)端AI芯片(pian)方(fang)向时,云(yun)端数据中心中的国产化(hua)AI芯片(pian)尚(shang)如一片(pian)荒原。

AI的发展是(shi)由模型算法(fa)研究推及(ji)云端(duan)终(zhong)端(duan)的部署,如(ru)果上游的云端(duan)训练(lian)模型受到国外的掣(che)肘,那(nei)么整个AI发展都(dou)会被限制(zhi)。

秉持着让中国拥有更多自主前瞻性模型的(de)(de)初心,近20年的(de)(de)芯(xin)片研发经验积淀,以(yi)及长期就职(zhi)于外企而日渐浓(nong)厚的(de)(de)家国情(qing)怀,促使两(liang)位燧原创始人决定(ding)在云端芯(xin)片高举高打。

在张亚(ya)林(lin)看来,芯片(pian)工程(cheng)化、市场(chang)应用与算法(fa)的整合、软(ruan)硬件加生态(tai)的全栈(zhan)式设计能力,成(cheng)为阻碍中(zhong)国云端芯片(pian)快速成(cheng)长的三(san)座(zuo)大山。

毕竟,单独(du)做出一颗能拿出来看的芯片,和整(zheng)个市场都能用的软硬件解决方案,中(zhong)间还隔有相当的距离。

不过这(zhei)一(yi)距(ju)离在两(liang)位(wei)燧原创始人眼(yan)中,并非(fei)是难(nan)以跨越的(de)(de)鸿沟。凭借(jie)此前(qian)在业界积累(lei)的(de)(de)口(kou)碑,他们快速在新赛道上(shang)集结了各种(zhong)对创业有利的(de)(de)因素。

人(ren)才(cai)(cai)和(he)(he)技(ji)(ji)术(shu)(shu)(shu)方面,中国集成(cheng)(cheng)(cheng)电路产业经过近(jin)20年(nian)的(de)发(fa)(fa)展,芯片设计人(ren)才(cai)(cai)和(he)(he)技(ji)(ji)术(shu)(shu)(shu)储备均(jun)已(yi)成(cheng)(cheng)(cheng)熟,足以研(yan)发(fa)(fa)大(da)芯片。如今(jin)燧原207名成(cheng)(cheng)(cheng)员(yuan)中,研(yan)发(fa)(fa)团队占90%,来自全球30多家(jia)公司,平均(jun)工作(zuo)年(nian)限10年(nian)以上(shang),有丰厚的(de)技(ji)(ji)术(shu)(shu)(shu)沉淀。

政策(ce)和(he)资(zi)金方面,燧原也(ye)获(huo)得了上海市自由贸易试验区(qu)临港(gang)新片区(qu)及多家投(tou)资(zi)机构的大(da)力支持。燧原分别在2018年(nian)7月(yue)和(he)2019年(nian)5月(yue)完成超(chao)3亿人民币(bi)的融资(zi),前者由腾讯战略领(ling)投(tou),后者由红(hong)点(dian)领(ling)投(tou)。

解密燧原云端训练芯片背后的底牌

有趣的(de)(de)是,作为国内AI界(jie)的(de)(de)投资大户,腾讯向提供资金支持的(de)(de)AI企业(ye)多聚焦于算法、软(ruan)件与应用层面,鲜少(shao)关(guan)乎芯片研发。

市场机会、应用空间、人(ren)才红利、数据资(zi)源、人(ren)才储备、技术储备、政(zheng)策引领、资(zi)本支持等使能(neng)引擎均已(yi)就绪,共同驱(qu)动燧原云(yun)端芯片在AI和集成电(dian)路交叉赛道上驶向前方。

三、如何实现最强单精度算力?燧原的三大核心技术优势

底(di)层硬件的(de)加(jia)速效率、性价(jia)比、能效比、可扩展性、易(yi)用性,以(yi)及是否可以(yi)有定制(zhi)化(hua)、差异化(hua),直接关乎(hu)整(zheng)体业务的(de)好坏。因此拿出有足够硬核的(de)芯(xin)片产(chan)品是任(ren)何一家(jia)AI芯(xin)片创企(qi)的(de)首要任(ren)务。

昨(zuo)天,燧原推出核心产品云燧T10,内嵌云端AI高性能通用训练芯片邃(sui)思、搭载了计算及(ji)编程平台“驭算”,覆盖硬(ying)件(jian)与软(ruan)件(jian)。

解密燧原云端训练芯片背后的底牌

▲燧原首款云端训练芯片邃思

从公布的算力和测试指(zhi)标来看,燧原已初步证明(ming)了自身的技术实(shi)力。

邃(sui)思芯(xin)片(pian)采用(yong)格罗方德(de)12nm FinFET工艺和2.5D高级(ji)封装技术,基(ji)于(yu)可(ke)重构(gou)芯(xin)片(pian)设(she)计理念(nian),具有(you)高度并行化的(de)(de)特点(dian),可(ke)实现通用(yong)可(ke)编程,并且能适配(pei)现有(you)及未来可(ke)能的(de)(de)数(shu)学(xue)运(yun)算,适用(yong)于(yu)图像、数(shu)据流(liu)、语音等各种训练场景。

云燧T10单精度(FP32)算力达到20TFLOPS,半精度及混合精度(BF16/FP16)算力达80TFLOPS在ResNet-50模型上每(mei)秒处理帧数为518fps,单位能(neng)(neng)耗下性能(neng)(neng)比达2.3fps/W。

这些成绩即(ji)便放到全球(qiu)云(yun)端AI芯片领域来看也可(ke)圈(quan)可(ke)点(dian)。另外燧原还(hai)计(ji)划在明年推进多卡互联的Benchmark测试。

解密燧原云端训练芯片背后的底牌

张亚林认(ren)为,燧(sui)原科技(ji)在技(ji)术方面有(you)三大核心优势。

其一,燧原推出的是覆盖软(ruan)硬件和系统的全栈式解(jie)决方案。

其二,燧原在整个芯片研发过(guo)程中,融入(ru)大(da)量专门(men)针对AI加速的设计(ji)(ji),并(bing)抛(pao)弃传(chuan)统设计(ji)(ji)与AI不(bu)相关(guan)的东西,致使整个AI软硬件系统性价比得到极大(da)提升。

尽管(guan)赵(zhao)立(li)东和张亚林(lin)都拥(yong)有丰富的CPU/GPU/APU相(xiang)关研发背景,但他们打(da)造的邃(sui)思芯片,在架(jia)构上没有借鉴任何GPU设计经验,而(er)是从(cong)无(wu)到有的设计了一(yi)套(tao)单独指令集和处理器,抛弃了以前(qian)所(suo)有的历(li)史包袱。

邃思芯片的计算(suan)(suan)核心(xin)包含32个通(tong)用可(ke)(ke)扩展神经(jing)元(yuan)处理器(qi)(SIP),每(mei)8个SIP组合成1个可(ke)(ke)扩展智能(neng)计算(suan)(suan)群(SIC)。SIC间通(tong)过(guo)HBM实(shi)现(xian)高速互联,通(tong)过(guo)片上(shang)调度算(suan)(suan)法,数据在搬迁中完成计算(suan)(suan),从而最大化SIP利用率。

其三,燧原(yuan)走(zou)的(de)是全团(tuan)队开发模式(shi),在(zai)后(hou)续与客户的(de)对(dui)接过程中,在(zai)本土化方(fang)面可提供最快速的(de)响应和(he)技(ji)术(shu)支持。

解密燧原云端训练芯片背后的底牌

此外在互联方面,燧原自研200GB双向(xiang)ESL(Enflame Smart Link,燧原片间互联)技术(shu),可实(shi)现芯片与(yu)芯片间、板卡(ka)与(yu)板卡(ka)间的高速互联,在成本(ben)和算力拓展上均有较大(da)优势,在1024节点集群规模下,其训练线(xian)性度加速比达86%。

软件(jian)是提升芯片易(yi)用性(xing)的重要工具,燧原对软件(jian)及工具链同样做了充分布(bu)局,打造了计算(suan)及编(bian)程平(ping)台驭算(suan)。

解密燧原云端训练芯片背后的底牌

一方面,考(kao)虑到现(xian)有(you)AI生态,驭算(suan)完(wan)全支持TensorFlow,下(xia)一阶段将(jiang)支持PyTorch、MXNet、ONNX等主流(liu)深度(du)学习框架。上层客户用这些(xie)框架做开发(fa)时,可(ke)以很快适配到燧原的软(ruan)硬件上。

另一方面,面向深(shen)度开发者,驭算也提供完整(zheng)的(de)开源工(gong)具链、SDK和软件(jian)函(han)数库,使得(de)对底层硬件(jian)资源有更多(duo)需求的(de)开发者能与燧原合作定(ding)制甚(shen)至改动部分函(han)数库,从而实(shi)现硬件(jian)更为有效(xiao)的(de)加速。

四、聚焦三大业务方向,定制化合作满足差异化需求

从2019年起,全球(qiu)AI芯片的核心话题已经从“拼性能(neng)”转移向“拼落地”,不仅要求(qiu)有好的算力和效能(neng),还要在落地具体业务场(chang)景时,能(neng)够(gou)尽(jin)可能(neng)的挖掘这些性能(neng)。

当(dang)前燧(sui)原的(de)业务主要聚焦在三大方向:一是包(bao)括公有(you)(you)(you)云、私有(you)(you)(you)云、混合云的(de)云服务商,二是金融、保险、医疗、互联(lian)网等领(ling)域(yu)有(you)(you)(you)很强模(mo)型训练需(xu)求的(de)行业客户;三是AI超算中心和智(zhi)慧城(cheng)市。

经由(you)对规(gui)模(mo)(mo)、性能、成(cheng)本的综(zong)合考量(liang),燧原为大中(zhong)小型数(shu)据中(zhong)心(xin)提(ti)供单节(jie)点模(mo)(mo)式(标准(zhun)PCIe卡)、单机(ji)(ji)柜(ju)模(mo)(mo)式(整个机(ji)(ji)柜(ju))、集群模(mo)(mo)式(ESL高速片间互(hu)连(lian))3种互(hu)联(lian)方案(an),以满(man)足不同客户对深(shen)度学(xue)习的训练需(xu)求。

解密燧原云端训练芯片背后的底牌

▲包括(kuo)8个云(yun)燧T11(OAM模(mo)组)的(de)AI训练Box,通过(guo)OCP标准专用接口与CPU服务器相(xiang)连

在首(shou)批客户的选择(ze)上,燧原也非常审慎(shen)。

张亚林表示,燧(sui)原当前寻(xun)求(qiu)的,是如何更有(you)效地与有(you)强相关性的合(he)作(zuo)伙(huo)伴产(chan)生互补效应。

燧(sui)原(yuan)希望在中国找到志(zhi)同道合的第一批(pi)客户,来优先(xian)将更高(gao)性价比的AI训(xun)练解决方(fang)案落(luo)地(di)到这些(xie)客户的业务场景,通过深入定制化合作,满足客户的差异化需求,从而产生更多前瞻性的AI算法,打破垄断局面,加速AI算法的产生与落(luo)地(di)。

在同客(ke)户(hu)接触时,燧原不急于立(li)刻开(kai)展业务(wu),而(er)是先从客(ke)户(hu)现(xian)有的业务(wu)模型当中进行泛化(hua)、抽取,以(yi)降低软件(jian)迁移成本。

除(chu)了云端训练产(chan)品外,燧原也有云端推理(li)产(chan)品线。张亚林透露,打通从训练模(mo)型(xing)(xing)产(chan)生(sheng)到推理(li)模(mo)型(xing)(xing)部署的整(zheng)个环节,是燧原在未来(lai)三(san)年要构建的全生(sheng)态终(zhong)极目标(biao)。

不过(guo)燧(sui)原暂时还没有(you)入(ru)局终端芯片(pian)(pian)的(de)规划。张(zhang)亚林认为(wei),云端的(de)难(nan)度(du)主要在技(ji)术和生态壁垒,而终端的(de)难(nan)度(du)则在于(yu)在细分市(shi)场(chang)(chang)找到定位,市(shi)场(chang)(chang)碎(sui)片(pian)(pian)化、算法(fa)碎(sui)片(pian)(pian)化问题导致一款(kuan)终端芯片(pian)(pian)很(hen)难(nan)打通(tong)用市(shi)场(chang)(chang),至少要几十万片(pian)(pian)的(de)出货(huo)量才能补足前期开发(fa)投入(ru)的(de)成本(ben)。

赵立东(dong)也提到,作(zuo)为一(yi)家初创公司,燧原首先将有限的资源(yuan)聚焦在一(yi)个点上,把这(zhei)个“冰(bing)”破开,再(zai)横向(xiang)铺开,这(zhei)个市场就变得(de)更加(jia)水到渠成。

解密燧原云端训练芯片背后的底牌

▲燧原科技首(shou)款云(yun)端AI训练加速卡云(yun)燧T10

截至现在,燧原科技已建设顶级工程化团队(dui),完成(cheng)产品研发和量(liang)产,实现产品热启动,开(kai)启首(shou)个AI训练平台的商(shang)业化落地。

下一步(bu),燧原将继续打造拥有(you)高能效比、高利用(yong)率、高性价(jia)比的(de)芯(xin)片(pian),吸收(shou)软(ruan)件迁移成本,并逐步(bu)完善(shan)市场销售、服(fu)务支持体系(xi)(xi)建设,不断(duan)丰富产品解决(jue)方案,打造对(dui)用(yong)户更友好(hao)易用(yong)的(de)软(ruan)件工具(ju),并持续引进高端人才,寻求建立广(guang)泛的(de)开源软(ruan)件生态系(xi)(xi)统(tong)联盟。

另外(wai),张亚林也希望能(neng)从研发(fa)、产品定义、花销、客户支持,创造(zao)一个多维(wei)度稳定平衡(heng)的(de)健康(kang)财务结(jie)构,将(jiang)未(wei)来(lai)主(zhu)动权掌握在(zai)自(zi)己的(de)手中。

结语:明年AI芯片继续拼落地

2019年(nian)被称为(wei)AI芯片落地元年(nian),张亚林相信,落地同样(yang)也(ye)会是2020年(nian)的关键词。

他(ta)表示,燧原希(xi)望(wang)能为做出达到世界水平的(de)(de)国产化芯片和软硬件系统(tong),并且(qie)有信心明(ming)年上半(ban)年打(da)破AI商业落地的(de)(de)魔咒。

燧原在(zai)云端AI芯片领域的一些思(si)考,对于其他芯片设计创(chuang)企同(tong)样有借鉴意义。正如魏少军教授所言(yan),芯片不是搭草台班子就(jiu)能做好的,不仅要(yao)有硬核技(ji)术实力(li)、工程化(hua)能力(li)和(he)团队(dui)完整性,还要(yao)思(si)考怎样才是对的方(fang)法、时机、方(fang)向(xiang)、产(chan)品和(he)客(ke)户(hu)。

打破(po)国外在云端芯片市(shi)场(chang)的垄断绝非易(yi)事(shi),但至少燧原已经(jing)(jing)迈出(chu)了充满勇(yong)气的第(di)一步。我们(men)也(ye)期待更多中(zhong)国芯能(neng)够迈过技术和(he)落地的一道道难关(guan),经(jing)(jing)受(shou)住时(shi)间和(he)市(shi)场(chang)的考验(yan)。