智东西(公众号:zhidxcom)
编译 | 夏舍予
编辑 | 云鹏
智东(dong)西6月24日消息(xi),据外媒VentureBeat报道,美国(guo)AI芯(xin)片(pian)创企Cerebras Systems创造了在单个设备上运(yun)行最大参数(shu)量NLP模(mo)型(自然语(yu)言处理模(mo)型)的记录(lu)。
这要归功于(yu)Cerebras Systems公司的CS-2系统和WSE-2芯(xin)片。WSE-2芯(xin)片是该公司在(zai)2021年4月发布(bu)的巨(ju)型晶(jing)圆芯(xin)片,WSE-2芯(xin)片比世界(jie)上现(xian)存(cun)的最(zui)大芯(xin)片Ampere A100多2.55万(wan)亿个晶(jing)体管。WSE-2芯(xin)片的内(nei)核是Ampere A100的123倍,内(nei)存(cun)是Ampere A100的1000倍,可提(ti)供的内(nei)存(cun)宽带(dai)是A100的12000倍。
WSE-2芯片为Cerebras Systems公(gong)司打造的CS-2系统提供(gong)核心算力。

▲Cerebras的(de)WSE-2与英(ying)伟达的(de)A100 GPU的(de)性能(neng)参(can)数对(dui)比(图源(yuan):Cerebras)
一、从几个月到几分钟,NPL模型运行时间骤缩
Cerebras Systems公司表示,CS-2系统只需要一个(ge)WSE-2晶(jing)圆(yuan)芯片(pian)就可以在单个(ge)设备上运行参数量数十亿的NLP模(mo)型(xing)(xing)(自然语(yu)言(yan)处(chu)理模(mo)型(xing)(xing)),这些模(mo)型(xing)(xing)包括GPT-J 6B、GPT-3 13B和GPT-NeoX 20B。
Cerebras Systems公司(si)的(de)(de)首席执(zhi)行(xing)官安德鲁·费尔德曼(Andrew Feldman)表示,Cerebras Systems公司(si)发(fa)明(ming)了一(yi)个新的(de)(de)软件(jian)执(zhi)行(xing)架构(gou)技(ji)(ji)术(shu),该技(ji)(ji)术(shu)被称为Weight Streaming。这(zhei)种新的(de)(de)技(ji)(ji)术(shu)分解了计(ji)算和参数(shu)存(cun)储,首次(ci)实现在芯片外(wai)存(cun)储模(mo)(mo)型参数(shu)。并且Weight Streaming技(ji)(ji)术(shu)消除了延(yan)迟和内(nei)存(cun)带宽问题,极(ji)大地简化了工作负载分配模(mo)(mo)型。因此,一(yi)个单独的(de)(de)CS-2系统(tong)就(jiu)能为具(ju)有(you)数(shu)万亿参数(shu)的(de)(de)模(mo)(mo)型提供算力。
“每个(ge)GPU的(de)内存是固定的(de)”,费(fei)尔德曼(man)说,“如果模(mo)型的(de)参(can)数(shu)量(liang)大于其GPU内存的(de)支持上(shang)限,就要增(zeng)加GPU的(de)数(shu)量(liang),再把(ba)工(gong)作分散到多个(ge)GPU上(shang),这会导致模(mo)型运行的(de)复杂(za)性爆炸(zha)式(shi)增(zeng)长。”Cerebras Systems公司(si)的(de)Weight Streaming技术可(ke)以分解计(ji)算和参(can)数(shu)存储(chu),实现在单个(ge)CS-2系(xi)统(tong)上(shang)运行任意数(shu)量(liang)参(can)数(shu)的(de)模(mo)型。
费尔德(de)曼表(biao)示(shi),通过(guo)WSE-2芯(xin)片的(de)(de)(de)计算(suan)能(neng)(neng)力和(he)Weight Streaming的(de)(de)(de)技术支(zhi)(zhi)持(chi),Cerebras Systems公(gong)司(si)可(ke)以实现在(zai)(zai)单个(ge)CS-2系统上支(zhi)(zhi)持(chi)最大参数(shu)规模(mo)的(de)(de)(de)NLP模(mo)型。这不仅(jin)缩短了模(mo)型的(de)(de)(de)运行时间(jian)(jian),也简化了模(mo)型的(de)(de)(de)操作(zuo)方式。人们只需要敲几(ji)(ji)下键盘(pan),就(jiu)可(ke)以在(zai)(zai)GPT-J和(he)GPT-Neo(两(liang)种(zhong)NLP模(mo)型)之间(jian)(jian)进行切(qie)换。这项任务在(zai)(zai)数(shu)百个(ge)GPU的(de)(de)(de)集群上需要数(shu)月的(de)(de)(de)工程(cheng)时间(jian)(jian)才能(neng)(neng)完成,而Cerebras Systems公(gong)司(si)把这个(ge)时间(jian)(jian)缩短到(dao)了几(ji)(ji)分钟。
费尔德曼说:“机器学习社区需要花费几个月才能(neng)做到的事(shi)情,在(zai)我(wo)们这里只需要按16下(xia)。”

▲Cerebras公司的(de)CS-2系统采用(yong)的(de)晶圆(yuan)大(da)小的(de)芯片(图源:Cerebras)
二、降低门槛,让任何组织都能运行大型NLP模型
费尔德曼表示,研(yan)究证(zheng)明,参数(shu)量(liang)越(yue)大(da)的NLP模型(xing)运行的效果越(yue)准确。但是(shi)有足够的资源和专业知识能分解这些大(da)型(xing)模型(xing),并(bing)在数(shu)百或数(shu)千(qian)个GPU上进行分布(bu)式训练的公(gong)司非常(chang)少。
费尔德曼(man)说(shuo):“随着技术的(de)(de)进步(bu),NLP模型(xing)的(de)(de)参数量(liang)一(yi)直(zhi)呈指(zhi)数增长,这(zhei)使得其体量(liang)变得越来越庞大。因此(ci),只有很(hen)少的(de)(de)公司有能力使用它们。我们改变了这(zhei)一(yi)现状,任(ren)何组织都能以(yi)轻松的(de)(de)方式使用大型(xing)NLP模型(xing)。”这(zhei)不是费尔德曼(man)单(dan)方面的(de)(de)说(shuo)法,还(hai)获得了Intersect 360 research的(de)(de)首席研(yan)究官(guan)丹·奥兹(Dan Olds)的(de)(de)认可。
丹(dan)·奥兹(zi)一(yi)份声明中(zhong)说:“Cerebras Systems公司降低了大型NLP模型的(de)运(yun)行门(men)槛,开启了一(yi)个新的(de)人工智能时代。Cerebras Systems公司为那(nei)些无法花费数千万(wan)美元购(gou)买设备的(de)组织提供了一(yi)个轻松、廉价的(de)途径,让这些公司有机(ji)会进入NLP大联盟(meng)。”

▲Cerebras 公司的WSE-2芯片与最(zui)大GPU的对比(图源:Cerebras)
三、客户遍布全球,新系统可助基因研究
目前,这项技(ji)术已经在全球(qiu)范围(wei)内被(bei)广泛采用。Cerebras Systems公(gong)司(si)在北美、亚(ya)洲、欧洲和中(zhong)(zhong)东地区都有客户(hu),这些客户(hu)包括GSK、阿斯利康、TotalEnergies、匹兹(zi)堡超级计算(suan)(suan)中(zhong)(zhong)心、莱布尼茨超级计算(suan)(suan)中(zhong)(zhong)心、爱(ai)丁堡并(bing)行(xing)计算(suan)(suan)中(zhong)(zhong)心(EPCC)、国家能源技(ji)术实(shi)验室等等。
这项技术在(zai)客户公司(si)中广获好评(ping)。英国制药(yao)公司(si)GSK是(shi)CS-2系(xi)统(tong)的使用客户之一,该(gai)公司(si)的人工智能高级副总裁Kim Branson表示(shi):“GSK需(xu)要(yao)新(xin)的设备来(lai)处理通过基(ji)因(yin)组和基(ji)因(yin)研究生成的极(ji)其庞(pang)大(da)的数据(ju)集(ji)。而(er)Cerebras Systems公司(si)的CS-2系(xi)统(tong)在(zai)我(wo)们(men)公司(si)使用生物数据(ju)集(ji)进行语言模(mo)型训练中承(cheng)担重(zhong)要(yao)功能。使用这个系(xi)统(tong)后,我(wo)们(men)能够处理的数据(ju)规模(mo)远(yuan)(yuan)远(yuan)(yuan)超过以前。这个模(mo)型是(shi)GSK公司(si)许多人工智能系(xi)统(tong)的基(ji)础,在(zai)我(wo)们(men)进行药(yao)物转型研究方(fang)面发挥着重(zhong)要(yao)作用。”

▲WSE-2芯片的主要参数配(pei)置(zhi)(图源:Cerebras)
结语:CS-2系统实现技术突破,推动人工智能向前发展
Cerebras Systems公司(si)(si)的(de)CS-2系统可以在单个设备(bei)上运(yun)行参数(shu)量超过(guo)数(shu)十亿的(de)NLP模型(xing),这(zhei)是人工(gong)智能(neng)领域的(de)一项(xiang)重要技(ji)术突(tu)破。这(zhei)不仅扩(kuo)充(chong)了单个设备(bei)上NLP模型(xing)的(de)参数(shu)容量,还让更多公司(si)(si)能(neng)够(gou)使(shi)用(yong)大型(xing)NLP模型(xing),扩(kuo)大其(qi)应用(yong)市场(chang)。
但是(shi),AI技(ji)术(shu)想(xiang)要(yao)(yao)获得突破(po),不能只靠提高(gao)参数(shu)数(shu)量(liang),扩大(da)模型体量(liang)。就像CPU的(de)主频一样,AI模型的(de)参数(shu)量(liang)只是(shi)一个指标。更重要(yao)(yao)的(de)是(shi)用更少的(de)参数(shu)达到更好的(de)结(jie)果。毕竟,训练AI模型的(de)目(mu)的(de)是(shi)让这些模型工(gong)作得更聪明,而(er)不是(shi)更努(nu)力。
来源:VentureBeat