智算集群(qun)已成为(wei)大模(mo)型(xing)基建(jian)军(jun)备竞(jing)赛的(de)标配。

在大(da)模型(xing)(xing)训(xun)(xun)练场景(jing)下,随(sui)着模型(xing)(xing)参数(shu)规模从千亿向(xiang)万亿迈(mai)进,算力需求激增(zeng)。同(tong)时,随(sui)着大(da)模型(xing)(xing)在不(bu)同(tong)领(ling)域的(de)(de)(de)应用落地,推理算力需求也迎来爆发式增(zeng)长(zhang)(zhang)。据(ju)(ju)中信建设证券数(shu)据(ju)(ju)显示,2024年至2027年全球大(da)模型(xing)(xing)推理的(de)(de)(de)峰(feng)值算力需求量的(de)(de)(de)年复合增(zeng)长(zhang)(zhang)率为113%,远高(gao)于(yu)训(xun)(xun)练的(de)(de)(de)78%。

为了(le)应对不断(duan)增长的(de)(de)算(suan)力(li)需求,全球(qiu)各地智(zhi)算(suan)集(ji)群建设正在(zai)如火如荼地进行(xing)(xing)之中,且(qie)规模也从早期的(de)(de)千卡、万(wan)卡快速增长到十万(wan)卡,甚至向百万(wan)卡级别(bie)发展。但是,集(ji)群规模的(de)(de)线(xian)(xian)性扩展并(bing)不直接等同于算(suan)力(li)的(de)(de)线(xian)(xian)性提(ti)升(sheng)。智(zhi)算(suan)集(ji)群要(yao)(yao)发挥出(chu)极(ji)致(zhi)有效的(de)(de)算(suan)力(li),需要(yao)(yao)从卡间和节点间的(de)(de)互联网络、软硬件适配、海量数(shu)据处理策略(lve)、运维保障(zhang)等多(duo)个方面进行(xing)(xing)协同优(you)化。

12月13日19:30智猩猩智算集群公开课第6期将开讲,由阿里云智能集团智算集群产品专家陈祎主讲,主题为《大模型时代的智算GPU集群》。

本次公开课,陈(chen)祎老师(shi)将(jiang)从(cong)产(chan)业一线的(de)(de)角(jiao)度,分享AI技术演进下的(de)(de)GPU集群(qun)需求变化(hua),并从(cong)Scale Up、Scale Out两个层面,阐述集群(qun)算(suan)力的(de)(de)扩(kuo)展路径。之后,陈(chen)祎老师(shi)还将(jiang)重点(dian)讲解大规模GPU集群(qun)的(de)(de)性能(neng)优化(hua)方法,以及(ji)稳(wen)定性挑战和优化(hua)实现,并对AI基(ji)础(chu)设施2025年的(de)(de)发(fa)展趋势进行(xing)展望。

公开课预告:大模型时代的智算GPU集群|阿里云智能集团智算集群产品专家陈祎主讲

公开课内容

主题:大模型时代的智算GPU集群
提纲:
1、AI技术演进催生GPU集群的需求
2、集群算力扩展:Scale Up vs. Scale Out
3、大规模GPU集群性能优化
4、集群的稳定性挑战与优化实现
5、AI基础(chu)设(she)施的(de)2025展望

主讲人

陈祎,阿里云智能集(ji)团智算(suan)集(ji)群产品(pin)专(zhuan)家,负责(ze)阿里云AI智算(suan)场景的(de)异(yi)构计算(suan)集(ji)群产品(pin)规划及设计。

直播时间

12月13日19:30-20:30