芯东西(公众号:aichip001)
作者 |  ZeR0
编辑 |  漠影

芯东西10月14日报道,10月13日,在圣何塞OCP全球峰会上,英伟达展示了十亿瓦AI工厂的未来。超过20家行业合作伙伴展示新的硅片、组件、电力系统,以及对十亿瓦时代的下一代800伏直流(VDC)数据中心的支持,这些数据中心(xin)将(jiang)支持英伟(wei)达(da)Kyber机(ji)架架构(gou)。

电力基础设施曾经是次要因素,如今正成为决定新部署规模、位置和可行性的主要因素。英伟达认为,要管理现代AI的电力需求,需要部署800 VDC配电系统集成式多时间尺度储能系统

开放计算(suan)项目(mu)(OCP)由Meta创立,是一个由数(shu)百家计算(suan)和网络提供商(shang)组成的(de)行业联盟,专注于重新设计硬件(jian)技术(shu),以有效支持日益增长的(de)计算(suan)基础设施需求。英伟达(da)是多代硬件(jian)OCP标准的(de)领先贡献者。

OCP生态系统正在为英伟达Kyber机架(jia)式系统做(zuo)准备,其特色是在800 VDC电力输送、液体冷却和机械设计方面(mian)的创新。这(zhei)些创新将(jiang)支持向机架(jia)服务器(qi)一代(dai)英(ying)伟(wei)达Kyber(英(ying)伟(wei)达Oberon继任者(zhe))的转变(bian)。

由直流基础设施提供商、电源系(xi)(xi)统(tong)(tong)和冷(leng)却合(he)作伙伴以(yi)及芯(xin)片制(zhi)造商组成的生态系(xi)(xi)统(tong)(tong),都遵循MGX机架(jia)服务器参考架(jia)构(gou)的开(kai)放标准。

英伟达(da)Kyber旨在提升(sheng)机架(jia)式GPU密度、扩(kuo)展网络规模并最大化(hua)大型AI基础架(jia)构的性能。

通过垂直旋转计算刀片(如同书架上的书本一样),Kyber可在每个机箱中容纳多达18个计算刀片。

此(ci)外(wai),专用(yong)的英伟达NVLink交换机刀片通过(guo)无(wu)(wu)线中板集成在机箱(xiang)背(bei)面,实现无(wu)(wu)缝扩展网(wang)络(luo)连接。

通过相同的800 VDC铜线传输的电力增加了150%以上,从(cong)而无需使(shi)用200公斤(jin)的铜(tong)母线来为单个(ge)机架供(gong)电。

Kyber机架可帮助(zhu)客户(hu)减少成吨(dun)的(de)(de)铜用量,从(cong)而(er)节省数百万美元(yuan)的(de)(de)成本。

该机架架构有望成为超大规模AI数据中(zhong)心(xin)的(de)基(ji)础(chu)要素,未来(lai)为先(xian)进的(de)生成式AI工作负载提供卓(zhuo)越的(de)性能、效率和可(ke)靠性。

超过20家英伟达合作伙伴正在帮助(zhu)提供具(ju)有开放标准的机架式服(fu)务器,为未来(lai)的十亿瓦AI工厂提供支持(chi)。包括:

硅片供应商:ADI、AOS、EPC、Infineon、Innoscience、MPS、Navitas、onsemi、Power Integrations、Renesas、Richtek、ROHM、STMicroelectronics 和Texas Instruments。

电源系统组件供应商:Bizlink、Delta、Flex、GE Vernova、Lead Wealth、LITEON和Megmeet。

数据中心电力系统供应商:ABB、伊顿、GE Vernova、Heron Power、日(ri)立能(neng)源(yuan)、三菱电(dian)机(ji)、施耐德电(dian)气、西门子(zi)和Vertiv。

富士康详细介绍了其正在(zai)建设(she)的4000万瓦台(tai)湾高雄1​​号数据中心(xin),该中心(xin)将(jiang)采用800 VDC电压。CoreWeave、Lambda、Nebius、甲骨文云(yun)基础设(she)施、Together AI等也正在(zai)为800V数据中心(xin)进行设(she)计。

一、电网互联成为AI扩展的主要瓶颈

英(ying)伟达NVLink等高带宽互(hu)连技术,可以让(rang)几千(qian)张(zhang)GPU像一(yi)块巨型GPU一(yi)样运行。

为了实现低延迟和高带宽,这些连接依赖于铜缆。铜缆的有效覆盖范围有限,造成了所谓的性能密度陷阱

要构建更强大的AI系统(tong),必(bi)须在更小的物(wu)理空间(jian)内集成更多GPU。这种架构上的必(bi)要性将性能与功率(lv)密度直接联系起来。

从英伟达Hopper到Blackwell架构的(de)(de)飞跃(yue)就是一个很好的(de)(de)例(li)子。

虽(sui)然单张GPU的(de)功耗(hao)(TDP)增加了75%,但NVLink域扩展到72张GPU的(de)系(xi)统却(que)使机架功率密度提高了3.4倍。其回报(bao)是性能(neng)提升(sheng)了惊人的(de)50倍,但也使机架功率从几(ji)万(wan)瓦提升(sheng)到了10几(ji)万(wan)瓦,目前每(mei)机架功率即将(jiang)突破100万(wan)瓦。

以传统的54 VDC等低电(dian)压(ya)提供(gong)这(zhei)种功率水平,在物理和(he)经济上(shang)都是不(bu)切实际的。所需的巨大电(dian)流会导致高(gao)电(dian)阻(zu)损耗,并需要大量(liang)不(bu)可持续的铜缆布线(xian)。

AI工作负载还带来一大挑战:波动性

与(yu)运行数(shu)千个互不相关任务的传统(tong)数(shu)据中心不同(tong),AI工厂是一个单一的同(tong)步系统(tong)。在训练大语言模型(xing)时,数(shu)千张GPU会近乎完美地(di)同(tong)步执行密集计(ji)算(suan)周(zhou)期,然后进行数(shu)据交(jiao)换(huan)。这将(jiang)导致整个设施的电(dian)力状况出现大幅(fu)且快(kuai)速的负载波(bo)动。

英伟达、微软和OpenAI联合开展(zhan)(zhan)的(de)AI训练(lian)数(shu)据中心电(dian)力稳定性研究记录(lu)了这种波(bo)动性挑战(zhan)。这项研究展(zhan)(zhan)示了同步(bu)GPU工作负载如何导(dao)致电(dian)网规模的(de)波(bo)动,机架的(de)功耗可(ke)能在(zai)几毫秒内从利用率约30%的(de)“空闲”状态(tai)波(bo)动到100% 左右,然后再波(bo)动回(hui)来。

这迫使工程师选择尺寸(cun)过大的组件(jian)来处理(li)峰值电(dian)(dian)流,而不是平均电(dian)(dian)流,从而增加(jia)了(le)成本和占(zhan)地面积。

当这些波动在整个数据大厅中累积起来时,数亿瓦的功率在几秒钟内急剧上升和下降,对公用电网的稳定性构成了重大威胁,使得电网互联成为AI扩展的主要瓶颈

对此(ci),英(ying)伟达提出了一种(zhong)双管齐下的架构策略,通过(guo)过(guo)渡到800 VDC配电并结合储能的深度(du)集成(cheng),应(ying)对规(gui)模和波(bo)动性挑战(zhan)。

二、过渡到800VDC架构可带来四大优势

应(ying)对大功率配电挑战的最有效(xiao)方法是(shi)提高电压。从传统的415或480 VAC三(san)相系(xi)统过(guo)渡到800 VDC架构可带(dai)来显著优势(shi),包括提高可扩展性(xing)、提升能(neng)源(yuan)效(xiao)率、减少材料消耗、提升数(shu)据中心性(xing)能(neng)等。

(1)原生800 VDC端到端集成。在(zai)设(she)施层面生成800 VDC并(bing)直接输送至800 VDC计算(suan)机(ji)架(jia),消除(chu)了(le)冗余(yu)转换,从而提升了(le)整体电源(yuan)效(xiao)率(lv)。该架(jia)构支持高密度GPU集(ji)群(qun),释放(fang)更(geng)高的(de)(de)单GPU性(xing)能,并(bing)为每个(ge)AI工(gong)厂(chang)支持更(geng)多(duo)GPU,从而为合作伙伴带来更(geng)高的(de)(de)计算(suan)吞吐量(liang)和创(chuang)收(shou)潜力(li)。它还(hai)确(que)保(bao)未(wei)来可扩(kuo)展性(xing),使(shi)其超(chao)过每机(ji)架(jia)1MW,并(bing)实(shi)现整个(ge)AI工(gong)厂(chang)电源(yuan)生态(tai)系统的(de)(de)无缝互操(cao)作性(xing)。

(2)减少铜线用量,降低成本。800 VDC的(de)(de)相(xiang)同(tong)线(xian)规可比415 VAC多承载(zai)157%的(de)(de)电(dian)(dian)力(li)。使(shi)用更(geng)简单的(de)(de)三(san)线(xian)配置(POS、RTN、PE)而非交流电(dian)(dian)的(de)(de)四(si)线(xian)配置,所(suo)需的(de)(de)导线(xian)更(geng)少,连接器(qi)更(geng)小。这减少了铜线(xian)用量(liang),降(jiang)低了材料和(he)安装(zhuang)成本,并简化了电(dian)(dian)缆管理,这对于(yu)机(ji)架电(dian)(dian)源插(cha)座向100万瓦级扩(kuo)展至关(guan)重要。

(3)提升效率。原生直流架构消(xiao)除了传统(tong)系统(tong)中(zhong)多(duo)个低效(xiao)的交流-直流转(zhuan)换步骤(zhou),传统(tong)系统(tong)中(zhong)端(duan)到(dao)端(duan)效(xiao)率(lv)可(ke)能低于90%。这种(zhong)简化的电(dian)源路径可(ke)提高效(xiao)率(lv)并减少废热。

(4)简化且更可靠的架构。直流(liu)配电(dian)系统本质上(shang)更(geng)简单,变压器和(he)相位平衡(heng)设备等组件(jian)更(geng)少(shao)。复杂性的(de)降(jiang)低(di)可以减(jian)少(shao)潜在(zai)故(gu)障点,并(bing)提(ti)高整体系统可靠性。

电动(dong)汽(qi)车(che)和(he)公用事(shi)业(ye)规模(mo)的(de)太(tai)阳能行业(ye)已采用800 VDC或更高(gao)的(de)电压来(lai)提高(gao)效率(lv)和(he)功(gong)率(lv)密(mi)度(du)。这(zhei)些行业(ye)已经创(chuang)建的(de)成熟组件生态系统和(he)实践,可适(shi)用于(yu)数(shu)据中(zhong)心。

三、下一代AI工厂将过渡到800 VDC配电模式

虽然(ran)800 VDC解决(jue)了规模效率问题,但它并不(bu)能解决(jue)工作(zuo)负载波动性问题。为此(ci),储能必须被(bei)视为电源(yuan)架构中必不(bu)可少的、活跃的组件(jian),而不(bu)仅仅是备用(yong)系(xi)统。

其目标是创建一个缓(huan)冲器——一个低(di)通(tong)滤波器——将GPU混(hun)乱的(de)功率需求与公用(yong)电网的(de)稳定性(xing)要求分离。

由(you)于(yu)功(gong)率波(bo)动发生在很宽的时(shi)间(jian)范围内(nei),因此(ci)需要采用(yong)多(duo)层次(ci)的策略(lve):

短时存储(毫秒到秒):高功率电容(rong)器(qi)和(he)超级电容(rong)器(qi)放(fang)置(zhi)(zhi)在(zai)靠近计算机架的位(wei)置(zhi)(zhi)。它们能够(gou)快速反应,吸收高频(pin)功率尖(jian)峰,并填补大语言模型工(gong)作负载空(kong)闲期(qi)间(jian)产(chan)生(sheng)的短(duan)暂低谷。

长时储能(秒到分钟):大型设施级电(dian)池储能(neng)系统(BESS)位于公用事业互连线路(lu)上。它们负(fu)责管理较(jiao)慢、较(jiao)大规模的功率转换,例如整个(ge)工作负(fu)载的上升和下(xia)降,并在切换到备用发电(dian)机期间提供电(dian)力(li)穿越(yue)能(neng)力(li)。

800 VDC架(jia)构是实现这一战略的关键因(yin)素。

目(mu)前的(de)数据中(zhong)心储(chu)能系统是按照交流供电方式连接(jie)的(de)。采用800 VDC架(jia)构后(hou),在最(zui)合适的(de)位置组合储(chu)能系统变得更加容(rong)易。

下一代AI工厂将从目前的交(jiao)流(liu)配电模式过(guo)渡到800 VDC配电模式。

目前的架(jia)(jia)构涉及(ji)多(duo)个(ge)(ge)电(dian)(dian)(dian)(dian)源转换阶段(duan)。市(shi)电(dian)(dian)(dian)(dian)提供的中压(如35 kVAC)会降(jiang)压至低压(如415 VAC)。然后(hou),该电(dian)(dian)(dian)(dian)源由交流UPS进(jin)行调(diao)节,并通过配(pei)(pei)电(dian)(dian)(dian)(dian)单(dan)元(PDU)和母(mu)线槽分配(pei)(pei)到计算(suan)机架(jia)(jia)。在每个(ge)(ge)机架(jia)(jia)内,多(duo)个(ge)(ge)电(dian)(dian)(dian)(dian)源单(dan)元(PSU)将(jiang)415 VAC转换为54 VDC电(dian)(dian)(dian)(dian),然后(hou)分配(pei)(pei)到各个(ge)(ge)计算(suan)机托盘,进(jin)行进(jin)一步的直(zhi)流-直(zhi)流转换。

未来的(de)愿景(jing)是将所(suo)有交流(liu)电转直(zhi)流(liu)电集中(zhong)在设施层面(mian),建立(li)本地直(zhi)流(liu)数据中(zhong)心(xin)。

在这(zhei)种方法中,中压交流电通过大型高容量(liang)电源(yuan)转换系统(tong)直接(jie)转换为(wei)800 VDC。然(ran)后(hou),这(zhei)800 VDC被分配到整个数据大厅(ting)的各个计算机架。

该(gai)架构通过消除交(jiao)流开关设备、变压器和PDU层(ceng)级来简化动力传动系统。它最大限(xian)度地利(li)用(yong)了用(yong)于创收计算(suan)的(de)空白空间,简化了整个系统,并为(wei)直接集成设施(shi)级储能提(ti)供了清洁的(de)高压直流主干(gan)网。

向(xiang)完全实现(xian)的(de)800 VDC架构的(de)过渡将分阶段进行(xing)(xing),为行(xing)(xing)业提供适(shi)应的(de)时间和组(zu)件生态(tai)系(xi)统的(de)成(cheng)熟时间。

英伟达MGX架构(gou)将(jiang)(jiang)与即将(jiang)(jiang)推出的英伟达Kyber机架架构(gou)一同(tong)演(yan)进,旨在采用这种全新的800 VDC架构(gou)。

电源以高(gao)压直接分(fen)配到(dao)每个计(ji)算(suan)节点,然(ran)后(hou)由后(hou)级高(gao)比(bi)率64:1 LLC转换器高(gao)效(xiao)地将其降至紧邻GPU的(de)12 VDC。这种单级转换效(xiao)率更高(gao),且比(bi)传统的(de)多级方法占(zhan)用面积减(jian)少(shao)26%,从而释放了(le)处理器附(fu)近宝贵的(de)空(kong)间。

这种转变,需要紧急、专注且全行业的协作。业界必须在800 VDC环境下的通用电压范围(wei)、连接器接口和安全实践(jian)方面(mian)达成一致。

结语:为未来AI工厂电力基础设施迭代做准备

GPU功耗的(de)(de)指数级增长(zhang)以及(ji)对(dui)电(dian)网和GPU负载配置文件的(de)(de)不断发展的(de)(de)需求(qiu),正在推动(dong)对(dui)新的(de)(de)机架(jia)(jia)和数据中心(xin)电(dian)源架(jia)(jia)构的(de)(de)需求(qiu)。

这种(zhong)新(xin)体系(xi)架(jia)构将有助于降低系(xi)统的(de)复杂性、成本和(he)(he)提(ti)高效率(lv)。通过将能量存(cun)储和(he)(he)800 VDC分布相结合,有望为未来AI工厂解决(jue)同步负载波动和(he)(he)GPU功率(lv)密度增加以实现(xian)最大计(ji)算效率(lv)的(de)问题。