芯东西(公众号:aichip001)
作者 |  程茜
编辑 |  漠影

超一个月训练时长、TB/PB级别的(de)(de)数(shu)据(ju)容量、行业数(shu)据(ju)的(de)(de)实时动(dong)态更(geng)(geng)新……这些模型训练、推理(li)与迭代(dai)的(de)(de)核心流程中(zhong)日(ri)益(yi)复杂的(de)(de)需求(qiu),都(dou)对(dui)数(shu)据(ju)存储(chu)提出(chu)了更(geng)(geng)严(yan)苛(ke)的(de)(de)要求(qiu)。

一直以来,算力、数据、算法作为驱动大模型发展的“三驾马车”已是行业共识,而如今伴随大模型的发展,此前Scaling Law指引下的算力竞赛是AI发展的上半场,那么以大规模应用为核心的AI落地竞赛,已然将先进存力推至产业竞争的(de)聚(ju)光灯下。

在这背后,我们看到了中国存储芯片赛道的一匹黑马——平头哥半导体的镇岳510 SSD主控芯片

先进存力站稳AI应用落地主场!平头哥镇岳510以六大特性镇场

▲平(ping)头哥(ge)半导体(ti)镇岳510 SSD主(zhu)控芯片

镇岳510的IO处理(li)能力达(da)到(dao)3400K IOPS,数据带宽达(da)到(dao)14GB/s,能效比达(da)到(dao)420K IOPS/Watt,其通过自研LDPC纠错算法与介质电压预测算法,误码率(lv)比业内头部产品(pin)领(ling)先1个数量级,且拥有4μs时延,比业界主(zhu)流产品(pin)降(jiang)低(di)超(chao)30%以上

具备大容量、低(di)时延(yan)、高能效(xiao)、高带(dai)宽、高可靠、低(di)成(cheng)本(ben)六大特性(xing)的镇岳510,既是阿里云AI存(cun)储体(ti)系的核(he)心(xin)底(di)座,更释(shi)放出成为AI产业(ye)存(cun)储能力升(sheng)级(ji)“芯引擎”的潜力。

一、AI时代冷热数据逻辑重构,镇岳510六大硬指标破局

稳(wen)定(ding)、高效、安全的数(shu)据存储(chu)在大模型(xing)时代至(zhi)关(guan)重要。

一方(fang)(fang)面,传统的冷(leng)热数(shu)据(ju)(ju)概念被(bei)颠覆,以(yi)往因访问频(pin)率低被(bei)称(cheng)冷(leng)数(shu)据(ju)(ju)的信(xin)息,现在也可以(yi)在大(da)模型(xing)场景发挥作用,大(da)模型(xing)的精准度、泛化能力(li)高度依(yi)赖(lai)海量(liang)(liang)、高质量(liang)(liang)且多样化的数(shu)据(ju)(ju)支撑;另(ling)一方(fang)(fang)面,其在训练阶段(duan)所(suo)需的大(da)规(gui)模标注数(shu)据(ju)(ju)、文本图像(xiang)音频(pin)等异构数(shu)据(ju)(ju)、推理过程中实(shi)时调(diao)用的动态数(shu)据(ju)(ju)、模型(xing)优化时依(yi)赖(lai)的反馈数(shu)据(ju)(ju),都(dou)需要数(shu)据(ju)(ju)存(cun)储体系(xi)承载。

可以说,在一定程度上数据存储直接决定了大模型的发展上限与应用价值

当下,千亿(yi)、万亿(yi)级(ji)别(bie)参(can)数(shu)规(gui)模(mo)(mo)的(de)大(da)模(mo)(mo)型诞生,就意味着其(qi)训(xun)(xun)练(lian)(lian)过程可能需同时(shi)承载(zai)TB级(ji)的(de)模(mo)(mo)型参(can)数(shu)、PB级(ji)的(de)训(xun)(xun)练(lian)(lian)语料及TB级(ji)的(de)中间计算结果,还(hai)要维持(chi)在长达数(shu)月训(xun)(xun)练(lian)(lian)时(shi)间内的(de)系(xi)统(tong)稳定,避免因中途数(shu)据丢失或损坏(huai)导致训(xun)(xun)练(lian)(lian)流(liu)程中断。

再加上大模型存储集群芯片能耗、成本控制,这意味着存(cun)储(chu)芯(xin)片(pian)的核(he)心竞争力成为容量、速度、能效(xiao)、兼容性(xing)、可(ke)靠性(xing)的多维协同

而兼具高性能与低成本双重核心优势的平头哥镇岳(yue)510,与大模型(xing)时代数据(ju)存储在(zai)这些维度(du)的需求(qiu)高度(du)契合。

为了更为直(zhi)观对比其(qi)性能与大(da)模型训(xun)练的需求,平头哥半(ban)导(dao)体技(ji)术服务(wu)专家杨泽宏举例说,公(gong)开数据显示GPT-3在几个月的训(xun)练时间内,GPU利用率不到40%,其(qi)中大(da)部分(fen)时间都在进行(xing)故障恢复、数据预(yu)处理。这是(shi)当下大(da)模型训(xun)练效(xiao)率提升的一大(da)难点。

镇岳510误码(ma)率低至10⁻¹⁸,这就意(yi)味着读(du)取一(yi)(yi)(yi)块32TB的(de)硬盘,一(yi)(yi)(yi)天写一(yi)(yi)(yi)遍,连续十(shi)年才(cai)出一(yi)(yi)(yi)个无法恢复的(de)读(du)错(cuo)误。这种高可靠性尽可能(neng)地减少了因为存(cun)储出现不可恢复性错(cuo)误导致的(de)模型(xing)训练中断。

平头哥半导体产品总监周冠锋提到,虽然AI训练、推理集群当下的性能瓶颈是算力和算力密度,但存力的重要性也不断提升,算力的性能和存力能提供的IO性能之间有一定匹配关系,随着未来算力密度进一步提升、算力规模扩大,必然会要求存力密度和存力的IO性能随之提高。镇岳510拥有最大随机读带宽3400K IOPS,随机写带宽2500K IOPS并率先实现4μs的超(chao)低时(shi)延,比业(ye)界主流降低30%以上

这种兼具高(gao)可靠性与(yu)稳定性的数据存储系统,就使(shi)得AI训(xun)练集群提(ti)高(gao)GPU利用率、降低(di)训(xun)练成本水到渠(qu)成。

二、与阿里云软硬协同,为AI场景提供高容量、高性能存力

这些能力的落地,背后是平头哥清晰的技术战略,将发力点集中在性能提升容量扩大两大方向上,其本质就是破解(jie)当(dang)前存储芯片瓶颈,适配AI场景(jing)的核心需求(qiu)。

首先在性能(neng)提升层面,平头哥看到(dao)了两个市场(chang)机遇。

其一是市(shi)场需求的(de)急(ji)迫性,杨泽宏提到,性能(neng)在云存(cun)储当中有着巨(ju)大价值,特别(bie)是高性能(neng)缓存(cun)可(ke)以解决数据延迟、数据不一致(zhi)等问(wen)题。

其二是傲腾(teng)技(ji)术的退出,意味着(zhe)业界急需一种能够解决高性能缓存需求(qiu)的更优方案。

平头哥瞄准了pSLC技术(shu),杨(yang)泽宏进一步(bu)透露(lu),他们采用传统的TLC介质,通过(guo)固(gu)件与电压控制(zhi)技术也(ye)就是仅(jin)施加(jia)高低两(liang)种电压信号,将TLC的单(dan)个存储单(dan)元切换为SLC模拟模式。

这(zhei)样一来,可以提升大模型训(xun)练(lian)前数据准备(bei)的效率,因为其对数据进行清洗、格式化、标(biao)注(zhu)等操作往(wang)(wang)往(wang)(wang)需要全局频繁(fan)随机读写(xie)。

目前,基于镇岳510的pSLC在阿里云OSS上进行灰度试验,其实测发现,与傲腾相比,基于镇(zhen)岳510的(de)pSLC,随(sui)机读带宽可(ke)以提升17%,写带宽维持和(he)傲腾介(jie)质相当的(de)水平,相对于目前主流(liu)的(de)TLC SSD+硬盘的(de)混闪模式,pSLC+硬盘的(de)组合可(ke)以提供更高的(de)读(du)写(xie)IOPS。与此同时(shi),镇岳510还实现了和傲腾一致的(de)极低写(xie)延时(shi)、近乎无限的(de)写(xie)寿命(ming)。

其次是(shi)扩大存储(chu)容量(liang),平头哥的策略是(shi)前瞻性布局(ju)。

杨泽宏解释说,平头哥的布局之一是提早规划、适配未来5~6年可能出现的更多(duo)介质

目前,诸多存储(chu)介质(zhi)厂商提(ti)出QLC、OLC和(he)PLC,可以预见(jian)未来芯片单位封装的容(rong)(rong)量会(hui)持续提(ti)升(sheng),这(zhei)随(sui)之(zhi)而来的挑战就是,如何协同底层算法优(you)化、负载均衡、充分发挥(hui)大(da)容(rong)(rong)量介质(zhi)的作用。

在此基础上,镇岳510和阿里云协同探索ZNS(分区(qu)命名空(kong)间)+QLC存储解决方案

相(xiang)比(bi)于现在业界主流看(kan)好的(de)(de)FDP方案,杨泽宏谈道(dao),他们选择ZNS有两大原因,一是(shi)(shi)FDP无(wu)法释放冗余杂质(zhi)(zhi),二是(shi)(shi)ZNS可以降(jiang)低(di)对DRAM的(de)(de)占用。随着存(cun)储(chu)(chu)(chu)介质(zhi)(zhi)迭(die)代,单个存(cun)储(chu)(chu)(chu)单元需承载更多bit数据,导(dao)致介质(zhi)(zhi)本(ben)身的(de)(de)可靠性下(xia)降(jiang),为对冲这(zhei)一风险,介质(zhi)(zhi)厂商(shang)趋向于提供更大OP(预留空间),而FDP无(wu)法释放OP就(jiu)使(shi)得存(cun)储(chu)(chu)(chu)介质(zhi)(zhi)的(de)(de)低(di)成本(ben)优势大打折扣。

平头哥(ge)与阿里云正深度协同(tong)合作,积极(ji)探索这一解决方案(an)的应用。

除了AI,镇岳510在分布式存储上同样展现出强大的竞争优势,其为阿里云EBS打造了更优的混合读写QoS,实测的99%时延表现仅为使用海外两大主流竞品时延的56%和84%

综合来看,作(zuo)为平头哥(ge)旗下首(shou)款SSD主控芯片,其于2023年11月发布至今,以(yi)阿里云数据(ju)中心为起点(dian),正在更多AI核心场景释放价值。

三、大模型驱动存力价值升级,镇岳510瞄准四大进阶方向

大模型发展至今,可以(yi)肯定(ding)(ding)的(de)一点是,存力的(de)核心(xin)价值正(zheng)在被重新定(ding)(ding)义,其作为AI效(xiao)能(neng)的(de)核心(xin)枢纽价值凸显。

今年8月,中(zhong)国(guo)(guo)信(xin)(xin)息通(tong)信(xin)(xin)研究(jiu)(jiu)院发布(bu)了《先(xian)进(jin)存(cun)(cun)力中(zhong)心研究(jiu)(jiu)报告(2025)》,其中(zhong)提到(dao)我(wo)国(guo)(guo)数据生产量逐年增长(zhang),存(cun)(cun)力建(jian)设(she)略(lve)显滞后,数据仍存(cun)(cun)在(zai)“应存(cun)(cun)未(wei)存(cun)(cun)”现象。

据《全国数据资源调查报告》所示,2023年至2024年数据年产量增速25%,数据存储总量增速为20.81%,这意味着存力(li)缺(que)口存在(zai)(zai)(zai),在(zai)(zai)(zai)大模型(xing)飞(fei)速(su)发展的同时持(chi)续强化存力(li)建设迫在(zai)(zai)(zai)眉睫

一开始就锚定高性能、高可靠性、低成本的镇岳510,内置RISC-V多核CPU,可以提供强大的算力支持,能适应AI、数据库、云计算等高性能应用场景,已经(jing)站上这一波先进存力竞(jing)赛的(de)第一梯队

而这仅仅是AI存力竞赛的起点,AI需求仍在飙涨,正迫切呼唤性能更强、容量更大、SSD容量开销更低、功(gong)耗更优的存储芯片加速诞生。

杨泽宏谈道,随着大模型应用大规模铺开,其需要降低实时推理时延、支撑更大容量,其必备的两大指标就是高带宽、大容量,未来或(huo)许可(ke)以达到一(yi)颗主控(kong)芯片实现PB级容量。

针对上文提到的超大OP趋势,其需要降低内部(bu)存储(chu)容量开销,迭代算法优(you)化释放(fang)OP,基于片内RAID提高数据、空间的利用率。

最后是针对大型AI集群算力带来的能量(liang)损耗,针对其中(zhong)数(shu)量较多的核心部件,降低SSD的功(gong)耗(hao)(hao)可以显著降低整个数(shu)据中(zhong)心能源损耗(hao)(hao)。

一方(fang)面(mian)可以通过(guo)制程演进降(jiang)低主控芯片本身的(de)功率密(mi)度(du),另一方(fang)面(mian)可以通过(guo)先进的(de)电源管理模块,实现低功耗模式高(gao)效运行,同(tong)时让发热量尽可能保持平稳,制冷系统的(de)功率也相(xiang)对平稳。

周冠锋补充说,目前其还在探索(suo)针对更(geng)细分场景优(you)化产品特(te)性,例如统(tong)一地址(zhi)(zhi)寻址(zhi)(zhi)、新CXL接(jie)口等。

但总的来(lai)看,平头(tou)哥镇岳510在先(xian)进存力竞赛上(shang)正(zheng)凭借(jie)实(shi)力突围(wei)。

此前AI Infra建设(she)多以算力(li)规模为核心指标(biao),而当算力(li)密度(du)不断(duan)增(zeng)大,与(yu)之(zhi)深(shen)度(du)绑(bang)定的(de)存力(li),其重要性也随之(zhi)愈(yu)发凸显,成为不可忽视的(de)关键支(zhi)撑。

结语:崭露头角的平头哥镇岳510,还有巨大的想象空间

在大模(mo)型驱动(dong)的(de)(de)先进存(cun)(cun)力时代,数(shu)(shu)据的(de)(de)价(jia)值(zhi)早已超越(yue)存(cun)(cun)储(chu)留存(cun)(cun)的(de)(de)基础范畴,单纯将数(shu)(shu)据存(cun)(cun)起(qi)来只是(shi)(shi)满足(zu)了AI运(yun)转的(de)(de)前(qian)提,而通过存(cun)(cun)储(chu)体系(xi)的(de)(de)优化让数(shu)(shu)据被高(gao)效(xiao)利(li)用起(qi)来,才是(shi)(shi)释放数(shu)(shu)据价(jia)值(zhi)、撬动(dong)AI效(xiao)能的(de)(de)关(guan)键。

作为(wei)存储主控(kong)芯片赛道的(de)后来(lai)者,平头哥镇岳(yue)(yue)510短短几(ji)年已成功通过了(le)阿里云存储和多家硬(ying)盘厂商(shang)的(de)检验(yan),这(zhei)也意味着在存力领域,镇岳(yue)(yue)510已经拿到(dao)了(le)一张门票。当然,这(zhei)只是故事的(de)开端,面向即将爆发的(de)AI推理(li)市场,镇岳(yue)(yue)还有巨(ju)大的(de)想象空间。