芯东西(公众号:aichip001)
编译 |  程茜
编辑 | Panken

芯东西(xi)10月(yue)17日消息,10月(yue)13日,北京大学(xue)AI研(yan)(yan)(yan)究(jiu)(jiu)院(yuan)孙仲研(yan)(yan)(yan)究(jiu)(jiu)员团队(dui)及合(he)作(zuo)者的新研(yan)(yan)(yan)究(jiu)(jiu)成果,登上国际(ji)顶级学(xue)术(shu)期刊Nature子(zi)刊Nature Electronics。

该团队成功研制出基于阻变存储器的高精度、可扩展模拟矩阵计算芯片,将传统模拟计算的精度提升了五个数量级,首次将模拟计算的精度提升至24位定点精度,可与数字计算媲美。

论文提到,相关性能评估表明,该芯片在求解大规模多输入多输出(MIMO)信号检测等关键科学问题时,在相同的精度下,该模拟(ni)计算方法可以提(ti)供比最先进的GPU高(gao)1000倍(bei)的吞吐量和100倍(bei)的能效

孙仲认为,这项进展能在未来的6G通信领域让基站实时、低能耗处理海量天线信号,提升网络容量和能效;在AI领域其有望加速大(da)模型训(xun)(xun)练(lian)(lian)中(zhong)计算(suan)(suan)密集的(de)二阶(jie)优(you)化算(suan)(suan)法从而提升训(xun)(xun)练(lian)(lian)效率,此外其低功耗特性也可支(zhi)持复杂信(xin)号处理和AI训(xun)(xun)推(tui)一体在终端设备(bei)上的(de)直接运行,推(tui)动边缘计算(suan)(suan)发展。

这一成(cheng)果标(biao)志着我国突破(po)模拟计算世纪难(nan)题,在后摩尔时代计算范式变革中取得重大突破(po),为应对AI与(yu)6G通(tong)信等领域(yu)的算力挑战(zhan)开辟(pi)了全新路(lu)径。

论文的题目为《基(ji)于阻变存(cun)储器芯片(pian)的高精度、可(ke)扩(kuo)展(zhan)模拟矩(ju)阵(zhen)方程求解(jie)技术(Precise and scalable analogue matrix equation solving using resistive random-access memory chips)。该研(yan)究(jiu)(jiu)由北京大(da)学AI研(yan)究(jiu)(jiu)院(yuan)通(tong)用(yong)AI芯片研(yan)究(jiu)(jiu)中心(xin)主导,并联合集成(cheng)电路学院(yuan)研(yan)究(jiu)(jiu)团(tuan)队完成(cheng),孙仲课题(ti)组在项目攻关中发挥(hui)了核心(xin)作用(yong),是此(ci)项成(cheng)果的主要贡献者。

算力达GPU千倍!北大芯片突破登Nature子刊

▲Nature Electronics论文(wen)发布主页

论文地(di)址://www.nature.com/articles/s41928-025-01477-0

一、让模拟计算兼顾高精度、可扩展性是世纪难题

在(zai)传统(tong)器件尺(chi)寸缩放逼近物理极限、传统(tong)冯·诺依曼架构(gou)面临“内(nei)存墙”瓶颈(jing)的(de)双重背景下,高复杂度计算给传统(tong)数字(zi)计算机带来(lai)了严峻挑战。

模拟计算具备通(tong)过物理定律(lv)直(zhi)接实现高并行、低(di)延时、低(di)功耗的先天优势,但(dan)此前传(chuan)统(tong)模拟计算因受限(xian)于低(di)精(jing)度、难(nan)扩展等缺点使其逐渐被数字计算所取代。

当下,孙仲认为:“如何让模(mo)拟计算兼具高精度与可扩展性,从(cong)而在(zai)现代计算任务(wu)中(zhong)发挥其先天优(you)势(shi),一直是困扰(rao)全球科学界的‘世纪难题’。

解决这一难题的可行路径是基于(yu)阻变存储(chu)器阵(zhen)列的模(mo)拟矩(ju)阵(zhen)计算技术(shu)(AMC),基于(yu)“阵列-运算(suan)放(fang)大(da)器”闭环(huan)(huan)反馈(kui)原理(li)设计的矩阵求(qiu)逆(ni)电(dian)路(lu),能够实现矩阵求(qiu)逆(ni)的一步(bu)式求(qiu)解(jie)(jie)。其可(ke)以通过在(zai)阻变存(cun)储(chu)器阵列和(he)运算(suan)放(fang)大(da)器(OPA)等传统模拟元件之间建(jian)立闭环(huan)(huan)反馈(kui),所得电(dian)路(lu)可(ke)以一步(bu)解(jie)(jie)决矩阵反转(INV)。

算力达GPU千倍!北大芯片突破登Nature子刊

▲模拟矩阵(zhen)(zhen)计算电路求解矩阵(zhen)(zhen)方(fang)程

但这(zhei)类电路(lu)的低精度特(te)性、电路(lu)的硬连(lian)接结构仍是挑战。

此(ci)外,在模拟(ni)矩阵(zhen)乘法计算中,比特切(qie)片(pian)、模拟(ni)补偿可用于(yu)精(jing)确执行矩阵(zhen)向量乘法,但使(shi)用此(ci)类技术求解矩阵(zhen)方程(cheng)(cheng)具有(you)挑战(zhan)性(xing),矩阵(zhen)方程(cheng)(cheng)求解过程(cheng)(cheng)缺(que)乏(fa)有(you)效的(de)分配律与(yu)分块(kuai)矩阵(zhen)方法支撑,这使(shi)得使(shi)得解决模拟(ni)INV的(de)精(jing)度和(he)可扩展(zhan)性(xing)问题具有(you)挑战(zhan)性(xing)。

论文提到,其中(zhong)一(yi)种(zhong)解决方案是采用(yong)(yong)模拟-数(shu)字混合设计。以前的方法将基(ji)于MVM的低精度迭(die)(die)代(dai)(dai)模拟求(qiu)解器结(jie)合在迭(die)(die)代(dai)(dai)细化算(suan)法中(zhong),浮点数(shu)字计算(suan)机(ji)用(yong)(yong)于执行(xing)高精度MVM(HP-MVM)运(yun)算(suan),收敛到准确的结(jie)果。

但这种(zhong)方案会削弱模(mo)拟(ni)计算在(zai)降低复(fu)杂性方面的优势,并且需模(mo)拟(ni)-数字(zi)转换,导(dao)致矩(ju)阵方程求解性能(neng)只能(neng)逐步提高。模(mo)拟(ni)INV仅限(xian)于具有无源电阻随机存(cun)取存(cun)储器(RRAM)阵列的小规模(mo)电路(lu),这不利于晶圆代工制(zhi)造(zao),并且缺乏可靠的多级存(cun)储器特性。

二、提出高精度、可拓展全模拟矩阵方程求解器,首次将模拟计算精度提升至24位定点精度

在此基础上,北京大学AI研究院孙仲研究员团队提出了一种基于阻(zu)变存储器(qi)阵列(lie)的(de)高精(jing)度(du)、可拓展的(de)全模拟矩阵方程求解器(qi)

该方案使用一种迭代算法,结合了模拟低精度矩阵求逆(LP-INV)和模拟高精度矩阵向量乘法(HP-MVM)运算,通过将这些芯片与分块矩阵算法相结合,首次将模拟计算的精度(du)提升至24位定点精度(du)。模拟INV通(tong)过在每次(ci)迭代中提(ti)供近似正确的结果来减少迭代次(ci)数(shu),高精度模拟MVM则通(tong)过比特切片(pian)实现。

此外,模拟低(di)精(jing)度矩阵求逆和模拟高精(jing)度矩阵-向量乘(cheng)法(fa)运(yun)算两个电路的阻变存储器(qi)阵列在40nm CMOS工艺平台(tai)制造,可实(shi)现3比(bi)特电导(dao)态(tai)编(bian)程。

算力达GPU千倍!北大芯片突破登Nature子刊

▲高精度全模(mo)拟矩阵计算(suan)求解(jie)矩阵方程

研究团队还在硬件中验证了BlockAMC方法,该方法(fa)使用块矩(ju)阵求(qiu)解大规(gui)模(mo)矩(ju)阵方程(cheng),并使用它来求(qiu)解中等规(gui)模(mo)16×16矩(ju)阵方程(cheng)。

具有模拟矩阵运算的HP-INV方(fang)案,由LP-INV和HP-MVM作的迭代(dai)组成,两(liang)者均(jun)由AMC电(dian)路实现(xian)。HP-INV方(fang)法可以扩展到求解实值和复值矩阵方(fang)程,这些矩阵方(fang)程经常出现(xian)在科学计算中的微(wei)分方(fang)程和无线通信中的信号(hao)处理等应用(yong)中。

研究人员评(ping)估了导线电(dian)(dian)(dian)阻对HP-INV收敛率的(de)(de)潜在影(ying)响,与基于RRAM的(de)(de)MVM应(ying)用相比(bi)(bi),在片上构建大规模(mo)INV电(dian)(dian)(dian)路更具挑战。尽管如此,32×32至64×64的(de)(de)阵列(lie)已(yi)经可以在吞(tun)吐量和能(neng)效(xiao)方面提供显著增益,尽管它比(bi)(bi)典型的(de)(de)基于RRAM的(de)(de)MVM电(dian)(dian)(dian)路小得(de)多。

目前(qian)其(qi)对于(yu)LP-INV的演示仍然仅限(xian)于(yu)8×8个阵列,扩展到更大(da)的32×32实现将(jiang)需要专用的芯(xin)片设(she)计和流片验证。

研究团队(dui)认为,对于(yu)此(ci)类设(she)计,将中等规模的LP-INV与HP-MVM集成(cheng)在单个芯片上(shang)将特别有(you)价值,并且应该成(cheng)为未来(lai)研究的主要焦点。

三、计算吞吐量、能效是GPU的千倍、百倍,可应用于大规模输入输出

该方案实现了计算精度提升,通过与块矩阵算法相结合,研究团队在实验上成功实现了16×16矩阵的24比特定点数精度求逆,也就是矩阵方程求解经过10次迭代后,相对误差可低至10⁷量级

算力达GPU千倍!北大芯片突破登Nature子刊

▲基于块(kuai)矩阵(zhen)方(fang)法求解高精(jing)度、可拓展(zhan)矩阵(zhen)方(fang)程的实验结果

在计算性能方面,北京大学AI研究院公众号提到,其测试结果表明,在求解32×32矩阵求逆问题时,其算力已超越高端GPU的单核性能;当问题规模扩大至128×128时,计算吞吐量更达到(dao)顶级数字处理器的1000倍以(yi)上

能(neng)(neng)效比方面,其在相同精度下(xia)能(neng)(neng)效比传统(tong)数字处理器提升超100倍。

在应用验证(zheng)层(ceng)面,大(da)规(gui)模多输入多输出(MIMO)技(ji)术有望在5G-A和6G时代(dai)大(da)幅(fu)提高无线(xian)通信系统的服(fu)务质量(liang)(liang),但(dan)在大(da)规(gui)模MIMO中,基(ji)站(zhan)(BS)的天线(xian)数量(liang)(liang)远(yuan)大(da)于用户设备的天线(xian)数量(liang)(liang)。

模拟求解器可应用于大规模MIMO系统的检测过程,与(yu)采用256-QAM调制的128×8系统的数字(zi)求解器相比(bi),仅在三个(ge)迭(die)代(dai)周期内就显示出(chu)相同的误码率性能(neng)

算力达GPU千倍!北大芯片突破登Nature子刊

▲高精度矩阵(zhen)方程求解在大(da)规(gui)模多输(shu)入多输(shu)出(MIMO)迫零检(jian)测(ce)信(xin)号处(chu)理过程中的应用(yong)

综合基准测试结果证实,在(zai)保持相当计算(suan)(suan)精度(du)的前(qian)提(ti)下,该模拟计算(suan)(suan)方法(fa)可实现领先的处理速(su)度(du)和能效。

算力达GPU千倍!北大芯片突破登Nature子刊

结语:为算力提升探索出一条极具潜力的路径

这篇论文(wen)提出的(de)基于阻变存储器(qi)阵列的(de)高精度(du)、可拓展的(de)全模拟矩阵方程求解器(qi),为应对AI与(yu)6G通信等(deng)领域的(de)算力挑(tiao)战开辟了全新路径(jing)。

孙仲认为,这项(xiang)突破的(de)(de)意(yi)义远不止于一篇顶(ding)刊(kan)论文,它(ta)的(de)(de)应用前景(jing)广阔,可赋能多元计算场景(jing),有望重塑算力(li)格局,“这项(xiang)工作的(de)(de)最(zui)大价值在于,它(ta)用事(shi)实证明(ming),模(mo)拟计算能以极(ji)高效(xiao)率和(he)精(jing)度解决现(xian)代(dai)科学和(he)工程中的(de)(de)核心计算问题。可以说,我们为算力(li)提升探索出一条极(ji)具潜力(li)的(de)(de)路径,有望打破数字计算的(de)(de)长期垄断(duan),开(kai)启一个算力(li)无处不在且绿色高效(xiao)的(de)(de)新时(shi)代(dai)。”