10月起,智猩猩芯片与算力教研组全新策划推出「智猩猩智算集群公开课」,聚焦集群构建、互联网(wang)络、算力调度(du)、存储等(deng)关键技术。
目前(qian),「智(zhi)(zhi)(zhi)猩猩智(zhi)(zhi)(zhi)算(suan)(suan)集群(qun)(qun)公(gong)开课(ke)」前(qian)四(si)期已(yi)顺(shun)利完结。腾讯(xun)专(zhuan)有云首席架(jia)构师方(fang)天戟、矩向科(ke)(ke)技(ji)(ji)CEO黄朝波、云脉芯联(lian)产(chan)品总(zong)监孙(sun)伟、益思芯科(ke)(ke)技(ji)(ji)解决方(fang)案副总(zong)裁唐杰四(si)位主讲人,分别以《智(zhi)(zhi)(zhi)算(suan)(suan)集群(qun)(qun)技(ji)(ji)术概述》、《智(zhi)(zhi)(zhi)算(suan)(suan)中(zhong)心(xin)融合算(suan)(suan)力调度》、《智(zhi)(zhi)(zhi)算(suan)(suan)集群(qun)(qun)网(wang)(wang)络互(hu)连技(ji)(ji)术创新应用与展望》、《智(zhi)(zhi)(zhi)算(suan)(suan)中(zhong)心(xin) AI Scale-Up 网(wang)(wang)络技(ji)(ji)术》为主题(ti),进(jin)行了直播讲解。
12月4日19:30,智猩猩智算集群公开课第5期将开讲,由中国移动研究院网络与IT技术研究所技术经理李锴主讲,主题为《OISA构建开放高性能GPU卡间互联体系》。
大模型的(de)(de)爆发,对智能算力的(de)(de)需求指数级提(ti)升(sheng),集(ji)(ji)群规模迈入万卡、十万卡级别。大模型的(de)(de)训练严重依赖集(ji)(ji)群内(nei)GPU之间频(pin)繁的(de)(de)数据交(jiao)互(hu),带(dai)来(lai)的(de)(de)庞大的(de)(de)通信(xin)开(kai)销导致集(ji)(ji)群的(de)(de)有效算力无法(fa)随GPU数量增加而线性增长,这也意味着互(hu)联(lian)性能将是决定集(ji)(ji)群规模扩展和性能提(ti)升(sheng)的(de)(de)关键所在。
智(zhi)算集群(qun)互联(lian)体(ti)系的(de)构建需(xu)要GPU芯片、交换机、网卡、网络协议(yi)等软硬(ying)件的(de)紧密(mi)结合,技术体(ti)系复杂,难(nan)度极(ji)高。
为了应(ying)对(dui)GPU卡间(jian)互(hu)联的(de)带宽和时(shi)延要求,中国移动联合产(chan)业合作伙伴共同(tong)发(fa)布OISA协议,旨在(zai)打造(zao)一(yi)个高效、智能(neng)(neng)(neng)、灵活(huo)开放的(de)GPU卡间(jian)互(hu)联体系。OISA采用全向(xiang)连接设计(ji),能(neng)(neng)(neng)够确保(bao)大规模GPU之间(jian)的(de)对(dui)等通信;同(tong)时(shi),引入智能(neng)(neng)(neng)感知(zhi)(zhi)设计(ji),通过定义流(liu)(liu)(liu)量感知(zhi)(zhi)标签(qian),并结合流(liu)(liu)(liu)控和重(zhong)传(chuan)(chuan)机制,优化数(shu)据传(chuan)(chuan)输效率(lv)。在(zai)协议层面,OISA采用统一(yi)报文格式、多语义融(rong)合、多层次流(liu)(liu)(liu)控和重(zhong)传(chuan)(chuan)以及集合通信加速等四大关键技(ji)术,能(neng)(neng)(neng)够实(shi)现高速、低(di)时(shi)延、无损和高可(ke)靠的(de)GPU通信。
本次(ci)公开课,李铠老(lao)师首(shou)先会介绍智算及GPU卡间互(hu)(hu)联(lian)的(de)发展背景,并(bing)进(jin)一步(bu)分(fen)析为(wei)什(shen)么要重塑GPU卡间互(hu)(hu)联(lian)体系。之后,李铠老(lao)师将(jiang)着重讲解如何利用(yong)OISA协议实现高(gao)效(xiao)的(de)GPU卡间互(hu)(hu)联(lian),并(bing)分(fen)享(xiang)当前OISA的(de)最新进(jin)展及下一步(bu)计划(hua)。

公开课内容
主题:OISA构建开放高性能GPU卡间互联体系
提纲:
1、智算及GPU卡间互联背景
2、为什么要重塑GPU卡间互联体系
3、如何通过OISA实现高效互联能力
4、当(dang)前OISA进展及下一步计划
主讲人
李(li)锴(kai),中(zhong)国(guo)移(yi)动研究院网(wang)络(luo)与IT技(ji)术研究所技(ji)术经理(li),主要职(zhi)责(ze)集中(zhong)在构建(jian)通用和智(zhi)能(neng)算(suan)(suan)力技(ji)术体(ti)系、NFV网(wang)络(luo)基(ji)础设(she)施(shi)以(yi)及(ji)先进计算(suan)(suan)等关键领(ling)域。致力于解决(jue)数据中(zhong)心(xin)(xin)内部处理(li)器、加(jia)速器、存储器等核心(xin)(xin)组件之间的效率提升问题,特别强调通过采用开放的互联技(ji)术来提高(gao)智(zhi)算(suan)(suan)中(zhong)心(xin)(xin)GPU卡间的数据传输效率和性能(neng)。以(yi)推动新(xin)型智(zhi)算(suan)(suan)中(zhong)心(xin)(xin)的创新(xin),实(shi)现更高(gao)效、更灵活(huo)的数据处理(li)。
直播时间
12月4日(ri)19:30-20:30