智东西(公众号:zhidxcom)
作者 | ZeR0
编辑 | 漠影
智东西10月13日报道,刚刚,在圣何塞OCP全球峰会上,英伟达展示了十亿瓦AI工厂的未来,并宣布Meta和甲骨文将使用英伟达Spectrum-X以太网网络(luo)交换机(ji)来增强其AI数据(ju)中心网络(luo),加快大规(gui)模(mo)部署(shu),实(shi)现AI训练效率的指数级增长(zhang)。
英伟达创始人兼CEO黄仁勋说,Spectrum-X不仅仅是更快的以太网,更是“AI工厂的神经系统”,使超大(da)规模(mo)计算(suan)(suan)企业能(neng)够将数百万张GPU连接到一台巨(ju)型计算(suan)(suan)机中,以训练有史(shi)以来最大(da)规模(mo)的(de)模(mo)型。
专为万亿参数模型时代而设计的英伟达Spectrum-X以太网平台由Spectrum-X以太网交换机和Spectrum-X以太网超级网卡组成,是首个专为AI打造的以太网平台。
Spectrum-X以太网已展现出创纪录的效率,其拥塞控制技术使全球最大的AI超级计算机实现了95%的数据吞吐量(liang)(liang)(liang)。相(xiang)比之下,现成(cheng)的大规模(mo)以太网(wang)会遭遇数千次流(liu)量(liang)(liang)(liang)冲(chong)突,导致吞吐量(liang)(liang)(liang)限制在60%左右(you)。
这一效率飞跃标志着AI可扩展网络在经济性和性能方面的突破。英伟达Spectrum-XGS以太(tai)网(wang)(wang)技术(shu)是Spectrum-X以太(tai)网(wang)(wang)网(wang)(wang)络(luo)平(ping)台的(de)一部分,能够实现(xian)跨规模扩展,将跨城市、国(guo)家(jia)、大洲的(de)数据(ju)中心连(lian)接成(cheng)庞大的(de)十亿级AI超(chao)级工厂。
Spectrum-X基于(yu)英伟达全栈(zhan)平台(包括GPU、CPU、NVLink和软(ruan)件),提供从(cong)计算到网(wang)络的(de)无(wu)缝(feng)性能。其先进的(de)拥塞控制、自适应(ying)路(lu)由和AI驱动的(de)遥测功能可(ke)确保大(da)规模(mo)AI训练和推理集群的(de)效率和可(ke)预测性。
甲骨文将建(jian)设(she)通过Spectrum-X以(yi)太网互连的十亿级(ji)AI工厂。
“通过(guo)采用Spectrum-X以(yi)太(tai)网,我(wo)们能(neng)以(yi)突破性的(de)效率互连(lian)数百万张GPU,从而使我(wo)们的(de)客户能(neng)够更快地训练(lian)、部(bu)署并受益于(yu)下一波生成式(shi)和(he)推理(li)式(shi)AI。”甲骨文云基础设施执行副总裁Mahesh Thiagarajan说。
Meta将(jiang)把Spectrum以太网(wang)交换机集(ji)成到其Facebook开放交换系统(FBOSS)的(de)网(wang)络基(ji)础(chu)设(she)施中。FBOSS是一(yi)个专(zhuan)为大(da)规模管理和控制网(wang)络交换机而(er)(er)开发(fa)的(de)软件平台。此(ci)次集(ji)成将(jiang)加速大(da)规模部署,从而(er)(er)提升AI训练效率(lv)并缩(suo)短洞(dong)察时(shi)间。
据Meta网络(luo)(luo)工程副总(zong)裁(cai)Gaya Nagarajan分享:“Meta的(de)下(xia)一代AI基础(chu)架构(gou)需要业界前所未有(you)的(de)规模(mo)的(de)开放(fang)高效网络(luo)(luo)。通过将(jiang)英(ying)伟达(da)Spectrum以太(tai)网集(ji)成到Minipack3N交换(huan)机和FBOSS中,我们可以扩展我们的(de)开放(fang)网络(luo)(luo)方(fang)法,同时释放(fang)训练(lian)更大规模(mo)模(mo)型所需的(de)效率和可预测性(xing),并将(jiang)生(sheng)成式AI应(ying)用带给数十亿人。”
英(ying)伟(wei)达NVLink Fusion也正快(kuai)速发展,使企业能够将其半定制芯片(pian)无缝集成到高度优(you)化且广泛部署的(de)数据中心架构中,从而降低(di)复杂性并加快(kuai)产品上市时间。
英特尔和三星代工厂正在加入NVLink Fusion生态系(xi)统。该(gai)生态系(xi)统包(bao)括定制芯(xin)片设计者、CPU和IP合作伙(huo)伴,以便AI工厂能够快速扩展,以处理(li)模型训练(lian)和Agentic AI推理(li)的(de)苛刻工作负载。
全新NVLink Fusion生(sheng)态伙伴(ban)包括(kuo):
- CPU合作伙伴:富士通,英特尔,高通。
- 定制芯片合作伙伴:AIchip,Astera Labs,GUC,Marvell,联发科,三星。
- 技术合作伙伴:楷登电子(Cadence),新思科技(Synopsys)。
作为最近(jin)宣布的(de)英伟达和英特尔(er)合(he)作的(de)一(yi)部分,英特尔(er)将构建使用(yong)NVLink Fusion集成到(dao)英伟达基础设施平台的(de)x86 CPU。
三星代工厂(chang)已与(yu)英伟达合(he)作,以满(man)足对定(ding)(ding)制CPU和定(ding)(ding)制XPU日益(yi)增长(zhang)的需求(qiu),为定(ding)(ding)制芯片(pian)提(ti)供从设计到制造的体验(yan)。
如今,十亿瓦AI集(ji)群已经(jing)成为AI芯片龙头(tou)企(qi)业们(men)共同(tong)的目(mu)标。英伟(wei)达Spectrum-X以太网和Spectrum-XGS结合了OCP的开放性(xing)和领先性(xing)能,被Meta和甲骨文两大科技巨头(tou)选用部署。
这些旨(zhi)在(zai)实现跨(kua)规(gui)模(mo)扩展的(de)技术,将(jiang)为大规(gui)模(mo)AI训练及推(tui)理(li)带来更可观的(de)效率,进而(er)加速生成(cheng)式AI应用的(de)开发与(yu)普及。