单机支持超万亿参数模型！浪潮信息发布超节点，给开源AI打造开放底座

智东西（公众号：zhidxcom）
作者 | 陈骏达
编辑 | 漠影

在刚刚过去的7月份，国产模型迎来一波重磅开源。与以往不同的是，本次国内大模型玩家们开源模型的参数量成倍增长，达到数千亿乃至万亿级别。这不仅显著提(ti)(ti)升了(le)国产模型(xing)的(de)能(neng)力上限，也为各行(xing)业智能(neng)化转(zhuan)型(xing)提(ti)(ti)供(gong)了(le)新一代强大的(de)智能(neng)基(ji)座(zuo)。

然而，随着模型(xing)体(ti)量不(bu)断攀(pan)升，对应的(de)基础设(she)施正(zheng)面临前所未有的(de)挑(tiao)战。传统(tong)集(ji)群架(jia)构在通信效(xiao)率、I/O性能和(he)系统(tong)扩展性等(deng)方面逐渐暴露出瓶颈，已难以满足当前开源(yuan)模型(xing)的(de)部署需求。

在这样的背景下，各类“超节点”方案应运(yun)而生。作为面向大(da)模型的新一代(dai)基(ji)础设施架(jia)构(gou)，超(chao)节(jie)点通过在(zai)单(dan)系统内部集成更多GPU资源，并显著优(you)化(hua)节(jie)点间的通信(xin)性(xing)能，有效突破了(le)传统架(jia)构(gou)在(zai)大(da)规模分布式计(ji)算中(zhong)的性(xing)能瓶颈。

昨日，浪潮信息正式发布了其面(mian)向万亿参(can)数大模(mo)型(xing)的超节(jie)点AI服(fu)务(wu)器——“元脑SD200”。得益于(yu)浪潮信(xin)息自研的多(duo)主机低延迟内(nei)存语(yu)义通(tong)信(xin)架构，SD200在单(dan)机内(nei)集成64路加速计算芯片，单(dan)机支持DeepSeek、Qwen、Kimi、GLM四(si)大(da)国产顶级开源模型同时运行，以及多(duo)智能体实时协作与按需调(diao)用(yong)。

单机支持超万亿参数模型！浪潮信息发布超节点，给开源AI打造开放底座

浪潮信息一直是开放计算生态的积极推动者，本次其此次推出的超节点方案采用了OCM+OAM的开放(fang)架(jia)构设计，兼容多款本土GPU芯片(pian)与大部分主流(liu)AI框(kuang)架(jia)，目(mu)前已率先实现商用(yong)。

在(zai)国(guo)产开源(yuan)模型奋力追赶智能上限之际，浪潮信息的(de)开放超节点，有(you)望成为承(cheng)载(zai)万亿参数模型的(de)重要(yao)底座之一。

一、厂商竞相追逐超节点，开放架构需求凸显

在(zai)探讨“超节点”对行业所带来(lai)的(de)深(shen)远影响之前，我们有必要(yao)先(xian)厘清(qing)这一技(ji)术诞(dan)生(sheng)的(de)背景。

首先，模型规模的持续膨胀正在逼近(jin)现有硬件的(de)承载(zai)极限。大(da)模(mo)型加速迈向万亿参数规模(mo)，同时上(shang)下文(wen)长度不断扩展，直接推高了(le)推理过程中的键值缓存(cun)(cun)（KV Cache）需(xu)求。显存(cun)(cun)与(yu)带宽(kuan)，正成(cheng)为(wei)压在AI基础设施之上(shang)的两座大(da)山。

与此同时，随着大模型加速进入千行百业，推理型负载成为主流计算模式，而推理是一种高度通信(xin)敏(min)感的(de)计(ji)算过程。以(yi)Qwen3-235B模(mo)型为(wei)例，若(ruo)要实现100 tokens/s的(de)解码速度(du)，单(dan)个token需完成多达188次的(de)All-to-All通信，且每次通信的(de)延迟(chi)必须控制在53微秒以(yi)内(nei)。

更不容忽视的是，Agentic AI的兴起正在进一步拉高对计算系统的需求。具备自主规划、多模态感知与连续执行能力的智能体，在执行任务时生成的token数量往往是传统模型的数十倍甚至上百倍，动辄需要处理数十万(wan)(wan)乃至(zhi)数百万(wan)(wan)token。

算力基础设施面临的上述三大关键挑战，使其走到升级重构的临界点。为了支撑万亿参数级模型的高效运行，构建高(gao)度(du)集成、低延迟、高(gao)带宽的Scale-Up（纵(zong)向扩展(zhan)）系(xi)统，即通过(guo)构建一个更大的高速互连域、形成(cheng)“超(chao)节点”，成(cheng)为现(xian)实(shi)的技术选择。

单机支持超万亿参数模型！浪潮信息发布超节点，给开源AI打造开放底座

通过构建超低延迟的统一显存空间，Scale-Up系统能将万亿级模型参数及激增的KV Cache整体容纳于单一高速互(hu)连域内，保障了多芯片间高效协同执行，显著减少跨节点通信开销，从而大幅(fu)提升吞吐速度(du)并降低通信延迟，实现(xian)降本增效。

AI算力需求侧的变化，正驱动供给侧的厂商们争相布局(ju)前沿的Scale Up方案。2024年，英伟达在GTC大会上提出SuperPod的概念；今(jin)年，国内厂商的方案更是将超节点引入大众(zhong)视野。

当前，业界在超节点技术方案的选择上，存在多种路径。在浪潮信息看来，超节点要根据客户应用需求来选择技术路线，要给客户提供更多算力方案的选择，核心策略是“开放架构”。

基于开放架构设计的超节点，能够支持多样化芯片、开放AI框架及主流开发工具，在保障高性能、低延迟的同时，实现跨平台的良好兼容与灵活扩展，推动AI基(ji)础(chu)设施真正走向开放、可持续的(de)发展路径(jing)。

二、单机运行四大开源模型，全面支持主流框架

昨(zuo)日，浪潮信息在2025开(kai)(kai)放计(ji)算(suan)(suan)技术(shu)大(da)会上正(zheng)式(shi)发布元脑SD200超节点AI服务器。作为开(kai)(kai)放计(ji)算(suan)(suan)领域的重要(yao)风向标，该大(da)会一(yi)向聚焦推(tui)动(dong)算(suan)(suan)力基础(chu)设施(shi)的开(kai)(kai)放与协同(tong)，而SD200正(zheng)是这(zhei)一(yi)理念的典型体现。

SD200基于OCM（开放算(suan)力(li)模组）与(yu)OAM（开放加速模块(kuai)）两大架(jia)构打造(zao)。OCM标准(zhun)由中国(guo)电子技术标准(zhun)化研究院发起，浪(lang)潮信息、百(bai)度等18家算力产(chan)业上下游企业共(gong)同参(can)与编制。

该架构围绕CPU和(he)内存进行解耦设计(ji)，具备高度模块化与(yu)(yu)标准化优势，支持系(xi)统供(gong)电、管理、风(feng)扇等(deng)组件(jian)的(de)独立升级与(yu)(yu)更换，大幅提升了服务器的(de)灵活性与(yu)(yu)可维护性。同时，OCM支持“一(yi)机(ji)多芯(xin)”，可快速(su)适配Intel、AMD、ARM等(deng)多种计(ji)算平台。

OAM则(ze)由开放计(ji)算项目（OCP）社区(qu)推(tui)动(dong)，是(shi)专(zhuan)为高(gao)性能计(ji)算与AI加(jia)速(su)场(chang)景设计(ji)的开放模块标(biao)准(zhun)。

该架(jia)构统一(yi)了加(jia)(jia)速卡(ka)的尺寸(cun)、电气接口和散(san)热设计，使来自不同厂商的GPU、NPU等AI加(jia)(jia)速器可在同一(yi)系统中(zhong)协同运(yun)行，并通(tong)过高(gao)速互联(lian)技术实现加(jia)(jia)速卡(ka)之间的低延迟直连，有(you)效(xiao)满足大模型训练(lian)与(yu)推理(li)对(dui)带宽的极致要(yao)求。

浪潮信息将OCM与OAM架构(gou)有机融合，为业界提(ti)供了一种开放(fang)的(de)超节点技术架构(gou)。

不过，光有“开放”的特性，仍不足以让一款开放超节点方案获得广泛采用，性能同样(yang)至关重要(yao)。

在开放计算技术大会现场，浪潮信息副总经理赵帅晒出了SD200超节点在真实部署环境下实现的性能。在经过软硬件的系统协同优化后，SD200超节点满机运行DeepSeek R1全参模型推理性能提升比为370%，满机运行Kimi K2全参模型推理性能提升比为170%。

单机支持超万亿参数模型！浪潮信息发布超节点，给开源AI打造开放底座

SD200超节点配备高达4TB的显存，能够同时容纳DeepSeek、Qwen、Kimi、GLM等多个旗舰级开源模型。赵帅称，这样的显存配置具备前瞻性，不仅可满足当前万亿级模型的部署需求，甚至为未来可能(neng)出现的2万(wan)亿、3万(wan)亿参数模型预留了(le)充足空间。

然而，在打(da)造这一方案时，浪潮(chao)信息(xi)并(bing)未一味追求技(ji)术堆叠，而是更注重实际落地的(de)可行性。正如浪潮(chao)信息(xi)赵帅在发布会(hui)后与(yu)智东西(xi)等媒体交流时所(suo)提到的(de)——客户的(de)核心诉求是“能否快速部署、快速上业务、上应(ying)用”。

基于这一判断，SD200在使用便利性上进行了优化设计。例如，采用风(feng)冷散热，企业无需改造机房，即可灵活部署；在互连方案上，则选择了更为成熟稳健的全(quan)铜电互连，提升(sheng)了(le)系统稳定性，同时降低了(le)终端用户的运维复(fu)杂度(du)和成本。

此外，SD200超节点还全面兼容当前主流的开源大模型计算框架（如PyTorch，已支持2200+算子），可实现新模型的无(wu)缝迁移与“Day 0”上线，为企(qi)业构建AI应用提(ti)供了即(ji)开即(ji)用的基础平台。

三、软硬协同优化实现性能突破，揭秘开放超节点背后创新

这(zhei)样一套开放超节点方(fang)案背后，是浪(lang)潮信息(xi)在融(rong)合架构(gou)和软硬件(jian)协(xie)同方(fang)面长达十余年的深(shen)厚积累。

赵帅(shuai)分(fen)享道，自2010年起(qi)，浪潮信(xin)息持续(xu)推进(jin)融(rong)合(he)架(jia)构(gou)(gou)(gou)演进(jin)，从最(zui)初的供电、散热等非IT资源的整合(he)，到存储、网(wang)络等资源池(chi)化(hua)，再到最(zui)新融(rong)合(he)架(jia)构(gou)(gou)(gou)3.0系(xi)统(tong)实现(xian)了计算、存储、内(nei)存、异构(gou)(gou)(gou)加(jia)速等核心IT资源彻底解耦和池(chi)化(hua)。

这沉淀下来的芯(xin)片共(gong)享内存(cun)数据、统一编(bian)址技术、池化、资源动态调度等技术，在今天的超节(jie)点系统(tong)中(zhong)得以延续和应(ying)用(yong)，显(xian)著提升了系统(tong)的适配速度(du)与商用(yong)效率(lv)。

此外，浪潮信息并非单纯的硬件厂商，其在大模型领域同样具备深度布局——早在2021年即发布首个中文巨量模型“源1.0”，其参数规模(mo)达2457亿(yi)，并持续在模型训练(lian)、推(tui)理优(you)化和软硬件(jian)协同(tong)方面积累经验(yan)。这些(xie)能(neng)力也为SD200这样的超节点方案提供了坚实基(ji)础(chu)。

为突破万亿大模型的带来的显存压力，SD200超节点基于浪潮信息自主研发的开放总线交换(huan)（Open Fabric Switch）技术，首创多主机三维网格(ge)系统(tong)架(jia)构（3D Mesh）。在这一(yi)架构下，64颗本土GPU能够(gou)以(yi)高速(su)、低(di)延迟的方式实现互连。

更进一步，SD200通过GPU虚拟映射等(deng)底层创新，解决了多主机环境(jing)下统(tong)(tong)一编址(zhi)的难题，将显(xian)存(cun)统(tong)(tong)一地址(zhi)空间扩增8倍，显(xian)存(cun)容(rong)量(liang)达(da)4TB，配合64TB系(xi)统(tong)(tong)内存(cun)，为超大模型提供了充(chong)足的KV缓存(cun)资源。

这意味着，不论是在模型训练还是推理过程中，开发者都能像调用单机GPU一样，灵活调度整个系统中的算力与显存资源，极大简化(hua)了(le)工(gong)程复杂度。实测结果表明，在推理过程常见的(de)小数据包通(tong)信(xin)场(chang)景中，全规约（All Reduce）性能(neng)表现优异，显(xian)著提升(sheng)计算(suan)与通(tong)信(xin)效率(lv)。

在系统层面，浪潮信息围绕万亿参数大模型计算密集、通信敏感的特性，构建起一整套软(ruan)硬协同优化(hua)的系统方案，将64卡超节点(dian)的算力潜能(neng)释放到极致。

单机支持超万亿参数模型！浪潮信息发布超节点，给开源AI打造开放底座

一方面，浪潮信息开发了智能(neng)总线管(guan)理系统，可实现超节点64卡全局最优路(lu)由的自(zi)动(dong)(dong)创建与管理。该(gai)系统不仅支持灵活拓(tuo)扑(pu)切换，还能根(gen)据业务负载动(dong)(dong)态进行资源切分与调度，为不同类型的大模型任务提(ti)供定制化的算力编(bian)排能力。

针对All Reduce、All Gather等典型(xing)通(tong)信算子的不同数(shu)据包规模，系(xi)统设计(ji)了细粒度、多层级的通(tong)信策略(lve)，进一步压缩通(tong)信路径的延迟。

此外，SD200还引入了开放的PD分离(li)框架(jia)，将预填充-解码（Prefill-Decoder）环(huan)节解耦，支持(chi)异步KV Cache高效传输，并允许针对不同(tong)模型并行需求制定(ding)差(cha)异化策略，兼顾性能(neng)(neng)与兼容性。这一设计(ji)不仅提(ti)升(sheng)了系统性能(neng)(neng)，也保(bao)障了对多元算(suan)力(li)架构的适配能(neng)(neng)力(li)，加强了计(ji)算(suan)与通(tong)信之间的协同(tong)优化。

通过软硬(ying)协同系统创新，SD200成功实现了(le)(le)纵向(xiang)扩展(zhan)，帮助本土AI芯片(pian)突(tu)破(po)了(le)(le)性能边界，在(zai)大模型场景中展(zhan)示出优异的(de)性能表现。

结语：开放超节点，带动产业链协同创新

在(zai)赵帅的(de)(de)(de)分享中，智东(dong)西(xi)感受到了浪潮信息(xi)对“以应用为导向”的(de)(de)(de)坚持。作为系统厂商，他们与终端(duan)客户的(de)(de)(de)距离更近(jin)，也更能(neng)体会到实际应用场(chang)景的(de)(de)(de)痛点(dian)(dian)。也因此，赵帅称，超节点(dian)(dian)架构本质上是系统化(hua)思(si)维的(de)(de)(de)产(chan)物，它(ta)不是某一个点(dian)(dian)的(de)(de)(de)突(tu)破，而(er)是在(zai)现有技术(shu)、生态(tai)和成(cheng)本约(yue)束下(xia)，从(cong)系统层面去(qu)打破芯片本身(shen)的(de)(de)(de)性能(neng)边(bian)界，最大化(hua)用户价(jia)值(zhi)。

超节点(dian)的发(fa)(fa)展也(ye)为中(zhong)国本土(tu)产业链提(ti)供了发(fa)(fa)展机遇——高速(su)连(lian)接器、线缆、板材、电源(yuan)等上下(xia)游产业链厂商，都有望这个过(guo)程中(zhong)找到属于自己的突破点(dian)。这不仅能加速(su)成(cheng)本下(xia)降(jiang)和技术普惠，更推动了智能基础设施(shi)的“平权(quan)化(hua)”。

放眼未来，赵帅认为(wei)，AI数据中心(xin)正从“机柜级密度革命”迈向“数据中心(xin)级系(xi)统工程(cheng)挑战”，算力密度将持续攀(pan)升，能源供给、冷(leng)却方式(shi)和系(xi)统管理(li)也随之(zhi)进入全面革新期(qi)。

从(cong)芯片到架构，从(cong)系(xi)统到生态，技术演(yan)进注定不会是一条单(dan)线道路，而是多路径(jing)的(de)(de)协同创新。在这场关于(yu)未来的(de)(de)集体(ti)奔赴中(zhong)，唯有持续开放、拥抱合作，才(cai)能构筑真正普惠(hui)、可持续的(de)(de)智能算力基(ji)石。

国产成人亚洲精品狼色在线,亚洲成色www久久网站,强制高潮(h)调教,大伊香蕉在线精品视频75,日本无码少妇成人久久丫

一、厂商竞相追逐超节点，开放架构需求凸显

二、单机运行四大开源模型，全面支持主流框架

三、软硬协同优化实现性能突破，揭秘开放超节点背后创新

结语：开放超节点，带动产业链协同创新

相关推荐