智东西(公众号:zhidxcom)
作者 | 程茜
编辑 | 漠影

智(zhi)东(dong)西9月29日报道,在9月26日的2025人工智(zhi)能(neng)计算大会(hui)上,浪潮(chao)信息连(lian)破两(liang)项纪录,让(rang)智(zhi)能(neng)体(ti)产(chan)业化门槛一降再降!

一个是国内大模型最快Token生成速度:基于元脑SD200超(chao)节点AI服务器,DeepSeek R1大模型Token生成速度仅需8.9毫秒;另一个是百万Token成本(ben)首(shou)次击破1元(yuan),基于其最新发布的元脑HC1000超扩展AI服(fu)务(wu)器

而这两大突破(po)的(de)价值(zhi),正契合智能体(ti)商(shang)业(ye)化(hua)(hua)产业(ye)化(hua)(hua)落地(di)的(de)本质(zhi)逻(luo)辑——

如今,具备自主学习、决策与执行能力、能独立完成复杂任务的智能体,已成为大模型规模化落地的核心载体,其产业化比拼的正是三大核心能力:场景适配能力、交互速度、成本控制

模型(xing)能(neng)力能(neng)否精准匹配行(xing)业(ye)真实需求(qiu)、交(jiao)互(hu)速度是否满足(zu)实时场景要求(qiu)、Token成本(ben)能(neng)否支撑(cheng)盈利闭环(huan),最终实现从技(ji)术可用到商业(ye)可持续的跨越,成为智能(neng)体(ti)产业(ye)化的关(guan)键(jian)桎(zhi)梏。

在这背后,算力体系的革新至关重要。当前GPU主导的计算模式与通用架构面临挑战,正逐渐在能效比和成本效益上触及瓶颈,因此业界亟需(xu)重新(xin)审视并(bing)设计(ji)(ji)AI计(ji)(ji)算(suan)系统,发(fa)展(zhan)AI专用架构以突破瓶(ping)颈

浪潮信息通过软硬件协(xie)同设计与(yu)深度优化,已(yi)经在持续推动(dong)AI计算架(jia)构(gou)的创新与(yu)突破上(shang)拿(na)出了阶段性重磅成果(guo)。

一、直面智能体产业化落地挑战!浪潮信息发力底层架构革新之路

最近爆火的(de)(de)智(zhi)(zhi)能体将生成式AI的(de)(de)应(ying)用(yong)潜力推至(zhi)新的(de)(de)高(gao)度(du),从为用(yong)户提供(gong)AI工(gong)具和助手,到(dao)多智(zhi)(zhi)能体协同创造价值的(de)(de)未(wei)来图(tu)景正(zheng)在缓慢展(zhan)开。

一方面,从语言到图像、音视频、3D各类模型连番刷新性能天花板,模型参数从百亿、千亿向万亿飙升,海量数据、后训练阶段算力投入的综合作用下,AI展现出通过学习人(ren)类知识具备泛化智能的(de)“涌现”能力

这正是智能体(ti)诞生(sheng)的基础,其(qi)可以(yi)根据需(xu)求(qiu)、用户预设的目标(biao)学(xue)习(xi)人类知识主(zhu)(zhu)动决策(ce)、规划、执(zhi)行,甚至实现自主(zhu)(zhu)迭代(dai)进化。

浪潮信息刷新AI推理天花板!智能体产业化竞赛给出高分答卷,8.9毫秒Token生成速度、1元/百万Token

另一方面DeepSeek通过算法创(chuang)新降(jiang)低大模型门槛,开源生态(tai)繁(fan)荣,为智能体生态(tai)繁(fan)荣奠(dian)定了基础。

这一趋势下,智能体产业化的三大核心要素被清晰推至台前:模型能(neng)(neng)力决定智(zhi)(zhi)能(neng)(neng)体应用(yong)上限、交互速度决定智(zhi)(zhi)能(neng)(neng)体产业(ye)化(hua)价值、Token成(cheng)本决定智(zhi)(zhi)能(neng)(neng)体盈利(li)能(neng)(neng)力

具体来看,模型能力(li)决(jue)定了(le)智(zhi)能体(ti)在具体(ti)场景(jing)中能解(jie)决(jue)什么(me)问(wen)题、解(jie)决(jue)到什么(me)程度(du):首先综(zong)合(he)性(xing)能可以(yi)对标(biao)甚至超过闭源(yuan)(yuan)模(mo)(mo)型(xing)的开源(yuan)(yuan)模(mo)(mo)型(xing)是重(zhong)要支撑(cheng);其次具体到(dao)不同场景(jing),每个(ge)模(mo)(mo)型(xing)推理、交互、垂直领域知识精准度,决定其能否做到(dao)在不同场景(jing)可用。

交互速度决定智能体解决问题的速度:不(bu)(bu)同(tong)于此前用(yong)户(hu)与聊(liao)天机器(qi)人的交(jiao)互(hu)场景,用(yong)户(hu)对时延(yan)的感知并(bing)不(bu)(bu)敏(min)感,最初GPT-3.5每秒生成速(su)度仅为(wei)40个(ge)token,彼时已经可以满足(zu)用(yong)户(hu)的阅读体(ti)验,但这放到智能(neng)体(ti)交(jiao)互(hu)层(ceng)面远(yuan)远(yuan)不(bu)(bu)够。

智能(neng)体(ti)在金融(rong)等对时延要(yao)(yao)求较高的领域,往(wang)往(wang)需要(yao)(yao)其响(xiang)应(ying)速度降至毫秒级别,也(ye)就是说,即(ji)使模型能(neng)力再强(qiang),慢响(xiang)应(ying)也(ye)会让其失去实用价值。

浪潮信息刷新AI推理天花板!智能体产业化竞赛给出高分答卷,8.9毫秒Token生成速度、1元/百万Token

最后是成本,Token成本(ben)决(jue)定智(zhi)能(neng)体盈利能(neng)力,Token成本(ben)直接对应企业的算力消耗成本(ben),成本(ben)与定价(jia)差额决定智能体(ti)毛利率,若Token成本(ben)过(guo)高,企业也会陷入卖(mai)得越多、亏得越多的困境。

然而当(dang)下推(tui)理模型的(de)(de)思考过程会(hui)产(chan)(chan)生成(cheng)(cheng)千上(shang)万个Token,智能(neng)(neng)体在(zai)执行复杂任务的(de)(de)中(zhong)间环节(jie)也(ye)会(hui)产(chan)(chan)生大(da)量中(zhong)间文本Token。根(gen)据Reddit的(de)(de)数据,当(dang)前使用AI辅助编程的(de)(de)开发者平均(jun)每(mei)月(yue)会(hui)消(xiao)耗1千万到(dao)5亿Token,相比一年前暴涨50倍(bei),目前企业部署一个智能(neng)(neng)体平均(jun)每(mei)月(yue)的(de)(de)Token成(cheng)(cheng)本大(da)概是1000到(dao)5000美(mei)元。主流模型的(de)(de)Token成(cheng)(cheng)本居高不(bu)下,这(zhei)对于其(qi)产(chan)(chan)业化是不(bu)小的(de)(de)瓶颈。

因此,随着大模型参数规模扩大、应用场景复杂化,单纯依靠堆算力、堆成本的粗放模式,已难以平衡智能体的性能、速度与盈利需求,从(cong)计算架构层面实(shi)现技(ji)术(shu)突破成为适(shi)配三大要素、推(tui)动智(zhi)能(neng)体产业(ye)化落地的最优路径,这(zhei)也是浪(lang)潮信(xin)息(xi)在布局的方向(xiang)。

二、从速度到成本双重突破,树AI服务器性能与成本新标杆

在这样的产(chan)业背(bei)景下(xia),浪(lang)潮信息作为全球算(suan)力基建核心供应商,其此次连破两个国内纪(ji)录的硬件(jian)产(chan)品,就是最好的例证。

首先是浪潮信息元脑(nao)SD200超节(jie)点(dian)AI服务器,在此之上DeepSeek R1的Token生成速度只需8.9毫秒,既实现国内(nei)大(da)模型最快Token生成(cheng)(cheng)速(su)度(du),也标志(zhi)国产AI服务器Token生成(cheng)(cheng)速(su)度(du)迈入(ru)10毫秒时代(dai)

基于其独创的多主机(ji)3D Mesh系统架构,该服(fu)务器单(dan)机实(shi)现了(le)64路(lu)本土AI芯片的(de)高速统一互连(lian),单(dan)机可(ke)承载4万亿参数单(dan)体模型,或部署多个万亿参数模型组(zu)成的(de)智能体应用。

浪潮信息刷新AI推理天花板!智能体产业化竞赛给出高分答卷,8.9毫秒Token生成速度、1元/百万Token

生成速度极致压缩的背后,SD200还实现了极低通(tong)信延迟、整机高可靠性(xing)设(she)计、超(chao)线性(xing)扩展(zhan)的推理性(xing)能(neng)

SD200达(da)到业(ye)界最低通(tong)信延迟为0.69微(wei)秒(miao),其(qi)采(cai)用(yong)极致(zhi)精简的(de)协(xie)议栈,包括物理层、数据(ju)链路层、事务层3层,原(yuan)生支持Load/Store等“内存语义(yi)”,基础(chu)通(tong)信延迟达(da)到百纳秒(miao)级,同时Open Fabric原(yuan)生支持由硬件(jian)逻(luo)辑(ji)实(shi)现的(de)链路层重(zhong)传,采(cai)用(yong)分(fen)布式、预防式的(de)流控机制,从而实(shi)现稳定可(ke)靠通(tong)信。

浪潮信息刷新AI推理天花板!智能体产业化竞赛给出高分答卷,8.9毫秒Token生成速度、1元/百万Token

为了保证整机高可靠适(shi)应超节点的(de)大规(gui)模商业(ye)(ye)化(hua)应用,其系统硬件(jian)层面通过(guo)全(quan)(quan)铜缆电互连、短距紧耦合(he)传输(shu),实(shi)(shi)现(xian)每十(shi)亿小时故(gu)(gu)障(zhang)(zhang)率是传统光模块互连方案的(de)1/100,基础软件(jian)层通过(guo)创新(xin)GPU故(gu)(gu)障(zhang)(zhang)信(xin)息转储(chu)、跨域故(gu)(gu)障(zhang)(zhang)关联(lian)定位等关键技术,实(shi)(shi)现(xian)全(quan)(quan)方位故(gu)(gu)障(zhang)(zhang)可观(guan)测(ce)、全(quan)(quan)自动(dong)故(gu)(gu)障(zhang)(zhang)隔离(li)、极速故(gu)(gu)障(zhang)(zhang)恢复,业(ye)(ye)务软件(jian)层通过(guo)构建业(ye)(ye)务故(gu)(gu)障(zhang)(zhang)预测(ce)模型实(shi)(shi)现(xian)推理响应不中断。

浪潮信息刷新AI推理天花板!智能体产业化竞赛给出高分答卷,8.9毫秒Token生成速度、1元/百万Token

SD200还通(tong)过(guo)面(mian)向超节(jie)点创新优化的通(tong)信库、PD分离策略、动态(tai)负(fu)载均衡(heng)等技术,将通(tong)信耗时控制在(zai)10%以内,实现(xian)了Deepseek R1 671B最高16.3倍的超线(xian)性(xing)扩展率。

与此同时,为了进一步提升SD200的易用性,浪潮信息使其兼容CUDA生态,对PyTorch算(suan)子(zi)全覆盖,一键迁移(yi)典型(xing)应用等(deng)。

此外,基于多元开放的超节点计算平台、异构融合的软件栈,浪潮信息还将与生态合作伙伴共同构建全场景智能体应用,共同塑造超节(jie)点(dian)智算应用(yong)“北京方案”

其次是元脑(nao)HC1000超(chao)扩展AI服务器,推理成(cheng)本首次击破1元/每百万Token

浪潮信息首席AI战略官刘军透露,全(quan)面(mian)优化降本和软硬协同增效是HC1000实现百万Token 1元成本高效生产力的关键路径。其核心是浪潮信息创新设计的DirectCom极速(su)架(jia)构以及全对称(cheng)系统拓扑设计

浪潮信息刷新AI推理天花板!智能体产业化竞赛给出高分答卷,8.9毫秒Token生成速度、1元/百万Token

DirectCom架构每(mei)计(ji)(ji)算模组配置16颗AIPU,实现单卡(ka)成本降低60%以上(shang),每(mei)卡(ka)分摊系统成本降低50%,其采(cai)用直达(da)通(tong)信(xin)设(she)计(ji)(ji)、计(ji)(ji)算通(tong)信(xin)1:1均衡(heng)配比,实现全局无阻塞通(tong)信(xin);全对称系统拓扑设(she)计(ji)(ji)支持灵活的(de)PD分离、AF分离方案,最(zui)大化(hua)资源利用率。

HC1000还支持超大规模无(wu)损扩展,实现从1024卡到52万卡的不同规模系统(tong)构建,计算(suan)侧通过DirectCom和智(zhi)能保序机制(zhi),网(wang)络侧支持包喷(pen)洒动态路(lu)由,深度(du)算(suan)网(wang)协同实现推理性能相(xiang)比传统(tong)RoCE提升1.75倍。

这(zhei)两大硬件一方面拉高交互速度保障实时场景响应效(xiao)率;另一方面推动Token成本持(chi)续(xu)触底,为智能体(ti)规(gui)模化落地提供(gong)关键硬件支撑。

三、浪潮信息的算力前瞻逻辑:跟随应用、算法发展布局

当我们剖析浪潮信息两大硬件背后的黑科技会发现,其核心底座是底层基础设施在系(xi)统(tong)架构、互联协(xie)议、软件框架等关键点上进行的协(xie)同创新

智能(neng)体产(chan)业(ye)化已成为行业(ye)共识(shi),全球(qiu)知名市(shi)研机(ji)构IDC的报告预测(ce),中国企业(ye)级智能(neng)体应用(yong)市(shi)场规模在2028年保守估计(ji)将超过270亿美元。

然而当前以GPU为核心的(de)计(ji)算模(mo)式与通用计(ji)算架(jia)构正面临严峻挑战(zhan)

一方(fang)面(mian),通用计(ji)算(suan)架构的(de)优(you)势(shi)在于其广泛(fan)的(de)场景(jing)兼容性,但其痛点是为适配多(duo)元需求而预留的(de)冗余设计(ji),往(wang)往(wang)导致(zhi)特定(ding)场景(jing)下算(suan)力效率难(nan)以(yi)(yi)突破(po);另(ling)一方(fang)面(mian),专用架构聚焦单一领(ling)(ling)域的(de)性能极致(zhi)优(you)化,像为AI训练(lian)量身打(da)造(zao)的(de)等,受限于应用场景(jing)的(de)狭窄性,难(nan)以(yi)(yi)形(xing)成跨领(ling)(ling)域的(de)生(sheng)态规(gui)模。

综合来看,计算产业的每一次跨越式发展,本质上都是在通用架构的普适性与专用架构的高效性之间寻找动态平衡使其在场景需求、技术(shu)迭代等(deng)方面实现互补,契合当下的产业发展需求。

因(yin)此,这(zhei)一时(shi)间节点,随(sui)着AI计算需求(qiu)呈指数级增长,行业亟需全面(mian)转(zhuan)向效率导向,重(zhong)新(xin)审视并重(zhong)构AI计算系统(tong)。

我(wo)们可以(yi)从(cong)浪潮(chao)信息的布局中,观(guan)察到(dao)其(qi)对计(ji)算架构底层创新(xin)的诸多思考。

刘军透露,他们追求计算架构创新的原则是跟随应用和算法发展(zhan)的方向(xiang),以(yi)应用为导向、以(yi)系统为核心(xin),才是进行计算架构创新的有效路径(jing)。

具体来看,此次浪潮信息(xi)的(de)SD200和HC1000针对的(de)是(shi)两个典型场景

SD200面向(xiang)对延迟(chi)要(yao)求(qiu)敏感的商业(ye)场景(jing),HC1000面向(xiang)的是云计(ji)算、互联网、大规模(mo)AI服(fu)务提(ti)供商,这些(xie)企业(ye)需要(yao)为客户的智能体应用提(ti)供成本更优的计(ji)算基础设(she)施。

今(jin)年智能体(ti)刚刚起步,面向未来(lai),其产(chan)业化落(luo)地(di)必然(ran)会助推AI算(suan)力持(chi)续高速(su)增长,仍有三大(da)挑战并存(cun)。

首先是系统规(gui)模扩(kuo)展接(jie)近工(gong)程极限,智能(neng)体对多(duo)模态交互(hu)、实时推理(li)(li)的需求,推动算力集群向更(geng)大规(gui)模、更(geng)高互(hu)联效率演进(jin),但硬件(jian)与网络的物理(li)(li)限制日益(yi)凸显;

其次是算力大(da)规模(mo)增长(zhang)对(dui)电力基础(chu)设施带来(lai)挑战,智能体(ti)的(de)(de)高并发交互带来(lai)算(suan)力(li)功耗的(de)(de)指数级(ji)(ji)增长(zhang),单个智算(suan)中心的(de)(de)电力(li)需求已达数吉(ji)瓦级(ji)(ji)别;

最(zui)后是算力投入和(he)产出失衡,商(shang)业兑现进程缓(huan)慢,智能(neng)体产业化仍处于(yu)高投入(ru)、低回(hui)报阶段,其面临(lin)GPU利(li)用率(lv)低、尚(shang)未形成成熟盈利(li)模式(shi)等困境。

这也进一步印证了,效率(lv)导(dao)向的(de)重(zhong)要(yao)性。刘军补(bu)充(chong)说,智(zhi)能体时(shi)代加速发(fa)展,从人机交(jiao)互(hu)到机机交(jiao)互(hu),都(dou)意味(wei)着(zhe)思考(kao)问题的(de)角度要(yao)随之变化。当(dang)下应从规模导向(xiang)(xiang)转向(xiang)(xiang)效率导向(xiang)(xiang),采(cai)用算(suan)法硬件化的(de)专用计算(suan)架构,探索开发(fa)大模型芯片(pian),实现软硬件深度优化,是未来(lai)的(de)发(fa)展方向(xiang)(xiang)。

结语:大模型重塑AI生态,算力革命紧随其后

大模(mo)型发(fa)展日新(xin)月(yue)异,从(cong)唯(wei)参数(shu)论到应用落地,推理需求(qiu)增长、智能体出现等,其对底(di)层(ceng)算(suan)力玩家提出的需求(qiu)也在(zai)发(fa)生变化。

因(yin)此企业在应对AI算力挑战时,不(bu)能仅(jin)停留在解决当(dang)下的(de)性能瓶颈与(yu)资源紧张等表层痛点(dian),更需(xu)穿(chuan)透(tou)问(wen)题表象,深挖制约算力效率提升与(yu)规模化应用的(de)核心桎梏,在此基础上,浪潮信息通(tong)过前瞻性视(shi)角布(bu)局技(ji)术(shu)与(yu)架构(gou)创新,为(wei)未(wei)来AI规模化落地筑牢技(ji)术(shu)根基。