智东西(公众号:zhidxcom)
作者 | 陈骏达
编辑 | 漠影

在刚刚过去的7月份,国产模型迎来一波重磅开源。与以往不同的是,本次国内大模型玩家们开源模型的参数量成倍增长,达到数千亿乃至万亿级别。这不仅显著提(ti)(ti)升了(le)国产模型(xing)的(de)能(neng)力上限,也为各行(xing)业智能(neng)化转(zhuan)型(xing)提(ti)(ti)供(gong)了(le)新一代强大的(de)智能(neng)基(ji)座(zuo)。

然而,随着模型(xing)体(ti)量不(bu)断攀(pan)升,对应的(de)基础设(she)施正(zheng)面临前所未有的(de)挑(tiao)战。传统(tong)集(ji)群架(jia)构在通信效(xiao)率、I/O性能和(he)系统(tong)扩展性等(deng)方面逐渐暴露出瓶颈,已难以满足当前开源(yuan)模型(xing)的(de)部署需求。

在这样的背景下,各类“超节点”方案应运(yun)而生。作为面向大(da)模型的新一代(dai)基(ji)础设施架(jia)构(gou),超(chao)节(jie)点通过在(zai)单(dan)系统内部集成更多GPU资源,并显著优(you)化(hua)节(jie)点间的通信(xin)性(xing)能,有效突破了(le)传统架(jia)构(gou)在(zai)大(da)规模分布式计(ji)算中(zhong)的性(xing)能瓶颈。

昨日,浪潮信息正式发布了其面(mian)向万亿参(can)数大模(mo)型(xing)的超节(jie)点AI服(fu)务(wu)器——“元脑SD200”。得益于(yu)浪潮信(xin)息自研的多(duo)主机低延迟内(nei)存语(yu)义通(tong)信(xin)架构,SD200在单(dan)机内(nei)集成64路加速计算芯片,单(dan)机支持DeepSeek、Qwen、Kimi、GLM四(si)大(da)国产顶级开源模型同时运行,以及多(duo)智能体实时协作与按需调(diao)用(yong)。

单机支持超万亿参数模型!浪潮信息发布超节点,给开源AI打造开放底座

浪潮信息一直是开放计算生态的积极推动者,本次其此次推出的超节点方案采用了OCM+OAM的开放(fang)架(jia)构设计,兼容多款本土GPU芯片(pian)与大部分主流(liu)AI框(kuang)架(jia),目(mu)前已率先实现商用(yong)。

在(zai)国(guo)产开源(yuan)模型奋力追赶智能上限之际,浪潮信息的(de)开放超节点,有(you)望成为承(cheng)载(zai)万亿参数模型的(de)重要(yao)底座之一。

一、厂商竞相追逐超节点,开放架构需求凸显

在(zai)探讨“超节点”对行业所带来(lai)的(de)深(shen)远影响之前,我们有必要(yao)先(xian)厘清(qing)这一技(ji)术诞(dan)生(sheng)的(de)背景。

首先,模型规模的持续膨胀正在逼近(jin)现有硬件的(de)承载(zai)极限。大(da)模(mo)型加速迈向万亿参数规模(mo),同时上(shang)下文(wen)长度不断扩展,直接推高了(le)推理过程中的键值缓存(cun)(cun)(KV Cache)需(xu)求。显存(cun)(cun)与(yu)带宽(kuan),正成(cheng)为(wei)压在AI基础设施之上(shang)的两座大(da)山。

与此同时,随着大模型加速进入千行百业,推理型负载成为主流计算模式,而推理是一种高度通信(xin)敏(min)感的(de)计(ji)算过程。以(yi)Qwen3-235B模(mo)型为(wei)例,若(ruo)要实现100 tokens/s的(de)解码速度(du),单(dan)个token需完成多达188次的(de)All-to-All通信,且每次通信的(de)延迟(chi)必须控制在53微秒以(yi)内(nei)。

更不容忽视的是,Agentic AI的兴起正在进一步拉高对计算系统的需求。具备自主规划、多模态感知与连续执行能力的智能体,在执行任务时生成的token数量往往是传统模型的数十倍甚至上百倍,动辄需要处理数十万(wan)(wan)乃至(zhi)数百万(wan)(wan)token。

算力基础设施面临的上述三大关键挑战,使其走到升级重构的临界点。为了支撑万亿参数级模型的高效运行,构建高(gao)度(du)集成、低延迟、高(gao)带宽的Scale-Up(纵(zong)向扩展(zhan))系(xi)统,即通过(guo)构建一个更大的高速互连域、形成(cheng)“超(chao)节点”,成(cheng)为现(xian)实(shi)的技术选择。

单机支持超万亿参数模型!浪潮信息发布超节点,给开源AI打造开放底座

通过构建超低延迟的统一显存空间,Scale-Up系统能将万亿级模型参数及激增的KV Cache整体容纳于单一高速互(hu)连域内,保障了多芯片间高效协同执行,显著减少跨节点通信开销,从而大幅(fu)提升吞吐速度(du)并降低通信延迟,实现(xian)降本增效。

AI算力需求侧的变化,正驱动供给侧的厂商们争相布局(ju)前沿的Scale Up方案。2024年,英伟达在GTC大会上提出SuperPod的概念;今(jin)年,国内厂商的方案更是将超节点引入大众(zhong)视野。

当前,业界在超节点技术方案的选择上,存在多种路径。在浪潮信息看来,超节点要根据客户应用需求来选择技术路线,要给客户提供更多算力方案的选择,核心策略是“开放架构”。

基于开放架构设计的超节点,能够支持多样化芯片、开放AI框架及主流开发工具,在保障高性能、低延迟的同时,实现跨平台的良好兼容与灵活扩展,推动AI基(ji)础(chu)设施真正走向开放、可持续的(de)发展路径(jing)。

二、单机运行四大开源模型,全面支持主流框架

昨(zuo)日,浪潮信息在2025开(kai)(kai)放计(ji)算(suan)(suan)技术(shu)大(da)会上正(zheng)式(shi)发布元脑SD200超节点AI服务器。作为开(kai)(kai)放计(ji)算(suan)(suan)领域的重要(yao)风向标,该大(da)会一(yi)向聚焦推(tui)动(dong)算(suan)(suan)力基础(chu)设施(shi)的开(kai)(kai)放与协同(tong),而SD200正(zheng)是这(zhei)一(yi)理念的典型体现。

SD200基于OCM(开放算(suan)力(li)模组)与(yu)OAM(开放加速模块(kuai))两大架(jia)构打造(zao)。OCM标准(zhun)由中国(guo)电子技术标准(zhun)化研究院发起,浪(lang)潮信息、百(bai)度等18家算力产(chan)业上下游企业共(gong)同参(can)与编制。

该架构围绕CPU和(he)内存进行解耦设计(ji),具备高度模块化与(yu)(yu)标准化优势,支持系(xi)统供(gong)电、管理、风(feng)扇等(deng)组件(jian)的(de)独立升级与(yu)(yu)更换,大幅提升了服务器的(de)灵活性与(yu)(yu)可维护性。同时,OCM支持“一(yi)机(ji)多芯(xin)”,可快速(su)适配Intel、AMD、ARM等(deng)多种计(ji)算平台。

OAM则(ze)由开放计(ji)算项目(OCP)社区(qu)推(tui)动(dong),是(shi)专(zhuan)为高(gao)性能计(ji)算与AI加(jia)速(su)场(chang)景设计(ji)的开放模块标(biao)准(zhun)。

该架(jia)构统一(yi)了加(jia)(jia)速卡(ka)的尺寸(cun)、电气接口和散(san)热设计,使来自不同厂商的GPU、NPU等AI加(jia)(jia)速器可在同一(yi)系统中(zhong)协同运(yun)行,并通(tong)过高(gao)速互联(lian)技术实现加(jia)(jia)速卡(ka)之间的低延迟直连,有(you)效(xiao)满足大模型训练(lian)与(yu)推理(li)对(dui)带宽的极致要(yao)求。

浪潮信息将OCM与OAM架构(gou)有机融合,为业界提(ti)供了一种开放(fang)的(de)超节点技术架构(gou)。

不过,光有“开放”的特性,仍不足以让一款开放超节点方案获得广泛采用,性能同样(yang)至关重要(yao)。

在开放计算技术大会现场,浪潮信息副总经理赵帅晒出了SD200超节点在真实部署环境下实现的性能。在经过软硬件的系统协同优化后,SD200超节点满机运行DeepSeek R1全参模型推理性能提升比为370%,满机运行Kimi K2全参模型推理性能提升比为170%

单机支持超万亿参数模型!浪潮信息发布超节点,给开源AI打造开放底座

SD200超节点配备高达4TB的显存,能够同时容纳DeepSeek、Qwen、Kimi、GLM等多个旗舰级开源模型。赵帅称,这样的显存配置具备前瞻性,不仅可满足当前万亿级模型的部署需求,甚至为未来可能(neng)出现的2万(wan)亿、3万(wan)亿参数模型预留了(le)充足空间。

然而,在打(da)造这一方案时,浪潮(chao)信息(xi)并(bing)未一味追求技(ji)术堆叠,而是更注重实际落地的(de)可行性。正如浪潮(chao)信息(xi)赵帅在发布会(hui)后与(yu)智东西(xi)等媒体交流时所(suo)提到的(de)——客户的(de)核心诉求是“能否快速部署、快速上业务、上应(ying)用”。

基于这一判断,SD200在使用便利性上进行了优化设计。例如,采用风(feng)冷散热,企业无需改造机房,即可灵活部署;在互连方案上,则选择了更为成熟稳健的全(quan)铜电互连,提升(sheng)了(le)系统稳定性,同时降低了(le)终端用户的运维复(fu)杂度(du)和成本。

此外,SD200超节点还全面兼容当前主流的开源大模型计算框架(如PyTorch,已支持2200+算子),可实现新模型的无(wu)缝迁移与“Day 0”上线,为企(qi)业构建AI应用提(ti)供了即(ji)开即(ji)用的基础平台。

三、软硬协同优化实现性能突破,揭秘开放超节点背后创新

这(zhei)样一套开放超节点方(fang)案背后,是浪(lang)潮信息(xi)在融(rong)合架构(gou)和软硬件(jian)协(xie)同方(fang)面长达十余年的深(shen)厚积累。

赵帅(shuai)分(fen)享道,自2010年起(qi),浪潮信(xin)息持续(xu)推进(jin)融(rong)合(he)架(jia)构(gou)(gou)(gou)演进(jin),从最(zui)初的供电、散热等非IT资源的整合(he),到存储、网(wang)络等资源池(chi)化(hua),再到最(zui)新融(rong)合(he)架(jia)构(gou)(gou)(gou)3.0系(xi)统(tong)实现(xian)了计算、存储、内(nei)存、异构(gou)(gou)(gou)加(jia)速等核心IT资源彻底解耦和池(chi)化(hua)。

这沉淀下来的芯(xin)片共(gong)享内存(cun)数据、统一编(bian)址技术、池化、资源动态调度等技术,在今天的超节(jie)点系统(tong)中(zhong)得以延续和应(ying)用(yong),显(xian)著提升了系统(tong)的适配速度(du)与商用(yong)效率(lv)。

此外,浪潮信息并非单纯的硬件厂商,其在大模型领域同样具备深度布局——早在2021年即发布首个中文巨量模型“源1.0”,其参数规模(mo)达2457亿(yi),并持续在模型训练(lian)、推(tui)理优(you)化和软硬件(jian)协同(tong)方面积累经验(yan)。这些(xie)能(neng)力也为SD200这样的超节点方案提供了坚实基(ji)础(chu)。

为突破万亿大模型的带来的显存压力,SD200超节点基于浪潮信息自主研发的开放总线交换(huan)(Open Fabric Switch)技术,首创多主机三维网格(ge)系统(tong)架(jia)构(3D Mesh)。在这一(yi)架构下,64颗本土GPU能够(gou)以(yi)高速(su)、低(di)延迟的方式实现互连。

更进一步,SD200通过GPU虚拟映射等(deng)底层创新,解决了多主机环境(jing)下统(tong)(tong)一编址(zhi)的难题,将显(xian)存(cun)统(tong)(tong)一地址(zhi)空间扩增8倍,显(xian)存(cun)容(rong)量(liang)达(da)4TB,配合64TB系(xi)统(tong)(tong)内存(cun),为超大模型提供了充(chong)足的KV缓存(cun)资源。

这意味着,不论是在模型训练还是推理过程中,开发者都能像调用单机GPU一样,灵活调度整个系统中的算力与显存资源,极大简化(hua)了(le)工(gong)程复杂度。实测结果表明,在推理过程常见的(de)小数据包通(tong)信(xin)场(chang)景中,全规约(All Reduce)性能(neng)表现优异,显(xian)著提升(sheng)计算(suan)与通(tong)信(xin)效率(lv)。

在系统层面,浪潮信息围绕万亿参数大模型计算密集、通信敏感的特性,构建起一整套软(ruan)硬协同优化(hua)的系统方案,将64卡超节点(dian)的算力潜能(neng)释放到极致。

单机支持超万亿参数模型!浪潮信息发布超节点,给开源AI打造开放底座

一方面,浪潮信息开发了智能(neng)总线管(guan)理系统,可实现超节点64卡全局最优路(lu)由的自(zi)动(dong)(dong)创建与管理。该(gai)系统不仅支持灵活拓(tuo)扑(pu)切换,还能根(gen)据业务负载动(dong)(dong)态进行资源切分与调度,为不同类型的大模型任务提(ti)供定制化的算力编(bian)排能力。

针对All Reduce、All Gather等典型(xing)通(tong)信算子的不同数(shu)据包规模,系(xi)统设计(ji)了细粒度、多层级的通(tong)信策略(lve),进一步压缩通(tong)信路径的延迟。

此外,SD200还引入了开放的PD分离(li)框架(jia),将预填充-解码(Prefill-Decoder)环(huan)节解耦,支持(chi)异步KV Cache高效传输,并允许针对不同(tong)模型并行需求制定(ding)差(cha)异化策略,兼顾性能(neng)(neng)与兼容性。这一设计(ji)不仅提(ti)升(sheng)了系统性能(neng)(neng),也保(bao)障了对多元算(suan)力(li)架构的适配能(neng)(neng)力(li),加强了计(ji)算(suan)与通(tong)信之间的协同(tong)优化。

通过软硬(ying)协同系统创新,SD200成功实现了(le)(le)纵向(xiang)扩展(zhan),帮助本土AI芯片(pian)突(tu)破(po)了(le)(le)性能边界,在(zai)大模型场景中展(zhan)示出优异的(de)性能表现。

结语:开放超节点,带动产业链协同创新

在(zai)赵帅的(de)(de)(de)分享中,智东(dong)西(xi)感受到了浪潮信息(xi)对“以应用为导向”的(de)(de)(de)坚持。作为系统厂商,他们与终端(duan)客户的(de)(de)(de)距离更近(jin),也更能(neng)体会到实际应用场(chang)景的(de)(de)(de)痛点(dian)(dian)。也因此,赵帅称,超节点(dian)(dian)架构本质上是系统化(hua)思(si)维的(de)(de)(de)产(chan)物,它(ta)不是某一个点(dian)(dian)的(de)(de)(de)突(tu)破,而(er)是在(zai)现有技术(shu)、生态(tai)和成(cheng)本约(yue)束下(xia),从(cong)系统层面去(qu)打破芯片本身(shen)的(de)(de)(de)性能(neng)边(bian)界,最大化(hua)用户价(jia)值(zhi)。

超节点(dian)的发(fa)(fa)展也(ye)为中(zhong)国本土(tu)产业链提(ti)供了发(fa)(fa)展机遇——高速(su)连(lian)接器、线缆、板材、电源(yuan)等上下(xia)游产业链厂商,都有望这个过(guo)程中(zhong)找到属于自己的突破点(dian)。这不仅能加速(su)成(cheng)本下(xia)降(jiang)和技术普惠,更推动了智能基础设施(shi)的“平权(quan)化(hua)”。

放眼未来,赵帅认为(wei),AI数据中心(xin)正从“机柜级密度革命”迈向“数据中心(xin)级系(xi)统工程(cheng)挑战”,算力密度将持续攀(pan)升,能源供给、冷(leng)却方式(shi)和系(xi)统管理(li)也随之(zhi)进入全面革新期(qi)。

从(cong)芯片到架构,从(cong)系(xi)统到生态,技术演(yan)进注定不会是一条单(dan)线道路,而是多路径(jing)的(de)(de)协同创新。在这场关于(yu)未来的(de)(de)集体(ti)奔赴中(zhong),唯有持续开放、拥抱合作,才(cai)能构筑真正普惠(hui)、可持续的(de)(de)智能算力基(ji)石。