智东西(公众号:zhidxcom)
作者 | 陈骏达
编辑 | 漠影
2025年,以DeepSeek、QwQ等为代(dai)表的(de)推理大(da)(da)模型(xing)火爆全球(qiu),并(bing)在(zai)复杂任务上展现出(chu)强大(da)(da)实力。这也让(rang)不少(shao)企(qi)业(ye)考虑,如何能利(li)用此轮推理大(da)(da)模型(xing)的(de)技术进步(bu),来优化(hua)自身(shen)的(de)决策、提升企(qi)业(ye)运行效率并(bing)促进创新。
然(ran)而(er),传统的(de)CPU服(fu)务器(qi)在处理当前的(de)AI推理需求时显得力不从心(xin),而(er)GPU推理服(fu)务器(qi)动辄上百(bai)万的(de)高昂(ang)成(cheng)本又将(jiang)许多(duo)中小企业挡在门外。
在这(zhei)样的(de)背景下,市场亟需(xu)一种既能控制成本又能保证性能的(de)服务(wu)器(qi)解决方案,以(yi)满足企业对便捷、高性价比AI推(tui)理服务(wu)的(de)需(xu)求(qiu)。
随(sui)着(zhe)AI技术的(de)(de)快速发(fa)展,CPU服务器(qi)也在不(bu)断进(jin)化。近日(ri),浪潮信息发(fa)布的(de)(de)元脑CPU推(tui)理服务器(qi),能高效运行(xing)DeepSeek-R1 32B和QwQ-32B等适合企业日(ri)常需求的(de)(de)推(tui)理模型,还能与(yu)企业原有的(de)(de)业务兼容,具备性价比(bi)高、运维简单等优(you)势(shi)。
▲元(yuan)脑CPU推理(li)服务器,基(ji)于QwQ-32B模(mo)型(xing)生(sheng)成猜(cai)数字游戏
在GPU服务器之外,新一代(dai)CPU推理(li)服务器为(wei)企业(ye)提(ti)供了快速、易获取且(qie)低成本的(de)算力供给,正(zheng)成为(wei)更(geng)多企业(ye)的(de)理(li)想(xiang)选(xuan)择。
一、跑大模型GPU并非唯一解,CPU推理服务器成中小企业理想新选择
当(dang)谈(tan)及部署(shu)大(da)模(mo)型时,不少企业(ye)的(de)第一反(fan)应都是“买卡(ka)”。的(de)确,在大(da)模(mo)型训练、推(tui)理(li)的(de)场(chang)景中,GPU加速卡(ka)凭借强大(da)的(de)浮点运算(suan)能力(li)和大(da)规模(mo)并行处(chu)理(li)架构,在高吞吐量的(de)AI推(tui)理(li)任务上展现出(chu)明显优势(shi)。
但GPU并不是(shi)唯一解(jie)。
CPU更擅(shan)长处理(li)(li)复杂的(de)逻(luo)辑运算(suan)(suan)和通用计算(suan)(suan)任务(wu),虽然在高并行计算(suan)(suan)任务(wu)上不(bu)如(ru)GPU,但在处理(li)(li)多样化工作负载(如(ru)数据库查询、业务(wu)逻(luo)辑处理(li)(li))时(shi)性(xing)能表现优(you)秀。而且,随着技术的(de)不(bu)断迭代,具备AI计算(suan)(suan)能力(li)的(de)CPU服务(wu)器也开始在AI推理(li)(li)场景中展现独到优(you)势。
在大模(mo)型推(tui)理(li)(li)过程中,不少模(mo)型采用KV Cache(键值缓存),用于存储解码过程中生(sheng)成的(de)中间结果,以(yi)减少重(zhong)复(fu)计算,提升推(tui)理(li)(li)效率。随着模(mo)型规模(mo)的(de)增大,KV Cache的(de)存储需(xu)求也随之增加。
与GPU服务器(qi)(qi)相比,CPU推(tui)理(li)服务器(qi)(qi)以更(geng)低(di)的硬件投入,支持更(geng)大容量(liang)的系(xi)统(tong)内(nei)(nei)存,能够轻松(song)存储更(geng)大规模的KV Cache,避免频(pin)繁的数据交(jiao)换,从而提升(sheng)推(tui)理(li)效率。CPU推(tui)理(li)服务器(qi)(qi)还(hai)可通过(guo)多通道内(nei)(nei)存系(xi)统(tong),进一(yi)步支持大规模KV Cache的高效访问。
当CPU推理服务器(qi)与高效的(de)中等尺寸推理模型结(jie)合后,能够形成显著的(de)协同(tong)(tong)效应(ying),在(zai)保证性能的(de)同(tong)(tong)时进一步压缩成本。
以业界多款32B推理(li)模型(xing)(xing)为例,这些模型(xing)(xing)通(tong)过采用更高效(xiao)的注(zhu)意(yi)力机制、模型(xing)(xing)量化(hua)与压缩技术(shu)以及KV Cache优化(hua),显(xian)著降低了计算和(he)存储需(xu)求。例如,DeepSeek-R1 32B在知识问(wen)答、智能写(xie)作和(he)内容(rong)生(sheng)成等方面表(biao)现优异,而QwQ-32B则在数学推理(li)、编程任务和(he)长文本处(chu)理(li)等领(ling)域展(zhan)现出强大的性(xing)能。
此外,DeepSeek-R1 32B和QwQ-32B的训(xun)练数(shu)据中包(bao)含(han)了(le)海量(liang)的高(gao)质量(liang)中文(wen)语料库,使(shi)其(qi)更加(jia)适合(he)国内企(qi)业的应用需求(qiu)。
在企业(ye)知(zhi)识库问答、文档(dang)写作(zuo)、会议纪(ji)要整理(li)等场(chang)景中,32B参数(shu)级(ji)别的(de)模型往往是最佳选择,既能(neng)提供强大的(de)能(neng)力支(zhi)持,又能(neng)保(bao)持合理(li)的(de)硬(ying)件投入,仅基(ji)于CPU推理(li)服务器(qi),企业(ye)用户即(ji)可实现本地化(hua)部(bu)署,满足对性能(neng)、成本和易用性的(de)多重需求。
从(cong)成(cheng)本(ben)角(jiao)度来看(kan),相(xiang)比(bi)(bi)GPU服(fu)(fu)务器高昂的(de)硬件成(cheng)本(ben),更(geng)严格的(de)电源、散(san)热(re)和机架空间(jian),CPU服(fu)(fu)务器对环境的(de)要(yao)求较为宽松(song),对于轻量(liang)使用和预算有限(xian)的(de)企业而言(yan),更(geng)具(ju)性价比(bi)(bi)。
二、软硬件协同优化成效显著,解码速度翻番、效率提升至4倍
浪潮信息本次推出的元(yuan)脑CPU推理服(fu)(fu)务器(qi),正是这样(yang)一款(kuan)支持中等尺寸模型(xing)推理,能为中小企业提供高(gao)效(xiao)AI推理服(fu)(fu)务的CPU推理服(fu)(fu)务器(qi)。

在实际测试中,单台元脑CPU推理服务器在使用(yong)DeepSeek-R1 32B进行带(dai)思(si)维链深度思(si)考的短输(shu)入长输(shu)出的问答场景下(xia),解(jie)码(ma)性能(neng)超过20tokens/s,20个(ge)并(bing)发用(yong)户下(xia),总token数达(da)到255.2tokens/s。

▲基于DeepSeek-R1 32B 并发性能测试数据
在使用(yong)QwQ-32B进(jin)行模型推(tui)理时,20个并发用(yong)户数(shu)下总token数(shu)达到224.3tokens/s,可以提供流畅稳定的用(yong)户体验。

▲基于QwQ-32B 并发性(xing)能(neng)测试数据
元脑CPU推理服(fu)务(wu)器的(de)性能,得益于浪潮信息的(de)软硬件协同优化(hua)。
算力方(fang)面,元(yuan)(yuan)脑(nao)(nao)CPU推理服务(wu)器(qi)(qi)采(cai)用4颗32核心的英特尔至(zhi)强处理器(qi)(qi)6448H,具有AMX(高级矩阵扩(kuo)展)AI加速功(gong)能,支持张(zhang)量(liang)并行计(ji)算。与传统双路服务(wu)器(qi)(qi)方(fang)案的有限内(nei)存(cun)不同,元(yuan)(yuan)脑(nao)(nao)CPU推理服务(wu)器(qi)(qi)的多通道内(nei)存(cun)系统设计(ji)可(ke)支持32组DDR5内(nei)存(cun)。
在这些硬件的加(jia)持下,元脑CPU推理服务器单机具备BF16精度AI推理能力、最大16T内存容量和1.2TB/s内存带(dai)宽,可以(yi)更好满足模型权重、KV Cache等(deng)计(ji)算和存储(chu)需求(qiu),快(kuai)速读取和存储(chu)数据(ju),大幅提升大模型推理性(xing)能。

▲元(yuan)脑CPU推理服务器NF8260G7配置
在算法(fa)方面,元脑CPU推理服务(wu)(wu)器对业界主流的企业级大(da)模型(xing)推理服务(wu)(wu)框架(jia)vLLM进行深度定(ding)制优化,通过张量并行和内(nei)存(cun)绑(bang)定(ding)技(ji)术,充分释(shi)放服务(wu)(wu)器CPU算力和内(nei)存(cun)带宽潜(qian)能(neng),实现多(duo)处理器并行计算,效率最高(gao)提升至4倍。

面(mian)对(dui)内(nei)存带宽的挑战,元脑(nao)CPU推理服务器为进一(yi)步提升解码性能(neng),采用(yong)了AWQ(Activation-aware Weight Quantization激活(huo)感知权重量化(hua))技术。
AWQ技术(shu)能(neng)确定模型(xing)中对性能(neng)影响最(zui)大的少(shao)部分重要权重,并通过(guo)保护这些权重来(lai)减少(shao)量化带来(lai)的误差。AWQ还避免(mian)了(le)混合精度计(ji)算带来(lai)的硬件效率损失(shi)。
采用了AWQ的元脑CPU推理服(fu)务(wu)器在(zai)解(jie)码(ma)任务(wu)中的性(xing)能(neng)提升了一倍,让大模(mo)型在(zai)保(bao)持高性(xing)能(neng)的同时(shi),跑得更快(kuai)、更省资源。

元脑(nao)CPU推理服务(wu)器还通过浪(lang)潮信息打造的AI Station平台,支持用户灵活选择适配(pei)的大模(mo)型(xing)算法,包括DeepSeek全系模(mo)型(xing)、QwQ和Yuan等不同(tong)参(can)数量(liang)的模(mo)型(xing)。
三、更懂中小企业需求,通用性、成本效益突出
在智东西与浪(lang)潮信(xin)息副(fu)总(zong)经理(li)赵帅的沟通(tong)中(zhong),我们了(le)解到,元脑CPU推(tui)理(li)服(fu)务器(qi)仅推(tui)出1周,便吸引了(le)多家来自大(da)模型、金融(rong)、教育(yu)等行业的客户咨询和测试,这(zhei)款CPU推(tui)理(li)服(fu)务器(qi)精准地填补了(le)中(zhong)小企业市场中(zhong)的一个关键空白。
目前(qian),许多企业对将私有数据上(shang)云仍持(chi)保留态度,更倾向于在本地完成(cheng)AI推理(li)任(ren)务(wu)。然而,如果(guo)企业选择使(shi)用GPU服务(wu)器(qi)来部署(shu)(shu)高(gao)性(xing)能AI模型,往往需要(yao)承担高(gao)昂(ang)的(de)初始投资成(cheng)本。对于中小企业而言,这(zhei)种投资的(de)性(xing)价(jia)比并(bing)不高(gao)——它(ta)们通常不需要(yao)极致(zhi)的(de)AI性(xing)能或(huo)超(chao)高(gao)的(de)并(bing)发处理(li)能力(li),而是更关注易于部署(shu)(shu)、易于管理(li)、易于使(shi)用的(de)入(ru)门(men)级AI推理(li)服务(wu)。
在这种情(qing)况下,生态(tai)更(geng)为成熟、开发工具(ju)更(geng)为健全的CPU推理服务器展现出了显著的优势。CPU推理服务器不仅能够更(geng)好地融入企业现有的IT基础设施,还因其通用性而具(ju)备(bei)更(geng)高的灵(ling)活性。
与专用AI硬件(jian)(如GPU服务器(qi)(qi))不同,CPU推(tui)理(li)服务器(qi)(qi)在AI推(tui)理(li)需求空闲期(qi),还可以兼顾企业的(de)其(qi)他通(tong)用计算(suan)需求,如数据库管理(li)、ERP系统运行等,从而最大化硬件(jian)资(zi)源的(de)利用率(lv)。
在部署便捷性方面(mian),元脑CPU推(tui)理服务器功耗2000W左右,降低了对供电设备的要(yao)(yao)求(qiu),还(hai)使得服务器的冷却需(xu)求(qiu)大(da)幅减少,仅需(xu)家用(yong)级空调即可满足散(san)热要(yao)(yao)求(qiu)。这意味着元脑CPU推(tui)理服务器能够轻松适应大(da)部分企业自(zi)建的小型(xing)机房环境,无需(xu)额外投(tou)资高成本的冷却设施或对现(xian)有机房进行大(da)规模改造。
元脑CPU推(tui)理服务器还具备高可(ke)靠(kao)性的(de)(de)特(te)点(dian),平均(jun)无故障(zhang)时间可(ke)达200000小时,能够保障(zhang)关键(jian)应用和(he)AI推(tui)理任务的(de)(de)持续稳(wen)定运(yun)行。这一特(te)性对(dui)于企业来说尤为重要(yao),尤其是在金融(rong)、医疗、制造(zao)等(deng)对(dui)系统稳(wen)定性要(yao)求极(ji)高的(de)(de)行业中,高可(ke)靠(kao)性意味(wei)着更低(di)的(de)(de)业务中断(duan)风险和(he)更高的(de)(de)运(yun)营效率(lv)。
谈及未来(lai),赵帅(shuai)分享,浪潮信息(xi)还将进(jin)一步提(ti)升(sheng)元脑CPU推理服务(wu)器的能(neng)力。依托于融合架构开发的经验积累,他们已在开发内存资源(yuan)池化的新(xin)技(ji)术,结合长(zhang)文本等算法特征进(jin)行软件优化,更(geng)好地支持企(qi)业的使用需(xu)求。
结语:CPU推理服务器有望推动AI普惠
随(sui)着AI技术往行业深水区(qu)发展,大(da)模型(xing)推理(li)需(xu)求正(zheng)从(cong)大(da)型(xing)企(qi)业逐(zhu)步向中小企(qi)业渗(shen)透(tou),从(cong)少部(bu)分企(qi)业所享有(you)的“奢侈(chi)品”转(zhuan)化(hua)为大(da)部(bu)分企(qi)业的“必需(xu)品”。
在这一进程中,如元脑CPU推(tui)(tui)理服(fu)务器这样的(de)高性价比AI推(tui)(tui)理解决方案,有望成为中小企业(ye)(ye)实现AI普及化和行业(ye)(ye)智(zhi)能(neng)化的(de)重要工具。