芯东西(公众号:aichip001)
编译 | 许丙南
编辑 | 程茜
智东西9月28日消息,9月24日,台积电在硅谷圣克拉拉,集中展示了“用AI设计AI芯片”的全新设计策略,其在芯片工艺、封装和设计流程多维创新下,目标是将AI计算芯片的能效提升约10倍。
据台积电介绍,这一代新型芯片设计采用多晶粒(Chiplet)封装架构,并通过AI算法优化电路布局等方法,大幅减少AI芯片的单位功耗。值得一提的是,EDA软(ruan)件厂(chang)商Cadence、新思科技等也在论坛上推出了(le)最新的AI设(she)计工(gong)(gong)具(ju)。根据(ju)路透(tou)社报(bao)道,这些工(gong)(gong)具(ju)在部分复(fu)杂(za)设(she)计任务中的表现已优于人(ren)工(gong)(gong)工(gong)(gong)程(cheng)师(shi)。

▲先进的3D封(feng)装技术
一、通信能效提高10倍,光互连提上日程
台积电资深研发副总裁刘立成博士(Dr. LC Liu)透露,由于AI技术(shu)的(de)广泛应用,计算(suan)芯片功耗正(zheng)在指数级(ji)攀升(sheng)。刘(liu)立(li)成(cheng)强调,AI的蓬勃发(fa)展使芯片功耗面临严峻挑战。如今AI计(ji)算(suan)从超大规模数据(ju)中心延伸到边(bian)缘设备,催(cui)生了(le)具身AI、链式推(tui)理(li)、Agent代理(li)等新产(chan)品,但这些产(chan)品需要处理(li)更庞(pang)大的数据(ju)集(ji)、进(jin)行更复杂的计(ji)算(suan)并长时间(jian)运行。
他指出,过(guo)去五年间AI加速器单颗芯(xin)片(pian)的(de)封装功耗提高(gao)了(le)3倍(bei),部署规模在三(san)年内增长(zhang)了(le)8倍(bei)。以数据中心为例,单机AI训练服务器功(gong)率动辄上千瓦(wa),在同等负载下相当于(yu)千户家庭的用电量。因此,如果无法显著提升能效,AI算力的可持(chi)续(xu)发展将难以为继。

▲在等功耗下(xia)速度从N7到A14提(ti)升约1.8倍(bei),功率效(xiao)率改善(shan)约4.2倍(bei)
为(wei)了应对(dui)这(zhei)一趋势(shi),台积电提出通(tong)过(guo)先(xian)进(jin)工(gong)艺、封装架构(gou)和(he)AI设计的(de)全(quan)方位创新来缓解功(gong)耗(hao)瓶颈(jing)。据刘立成介绍(shao),台积电正从逻(luo)辑工艺和(he)(he)3D封装两方(fang)面同时发力,并联合生态(tai)(tai)伙伴优化设(she)计方(fang)法学,力求(qiu)将每瓦性能(neng)大幅(fu)提升(sheng)。该(gai)策略包括进(jin)一步缩小制程节点、引入新型背面供电等晶(jing)体(ti)管技术,以及在封装层(ceng)面采(cai)用Chiplet小晶(jing)粒和(he)(he)垂直3D集成,减少数(shu)据传输损耗和(he)(he)功耗开销。刘立成指出,只(zhi)有同时在工艺、封装和(he)(he)设(she)计生态(tai)(tai)上取得突(tu)破,才能(neng)满足AI时代急剧膨胀的(de)算(suan)力需求(qiu)。
在封装与互连方面,台积电聚焦3D芯粒集(ji)成(cheng)和高速通信技术,以打破传统单芯片的(de)尺寸和I/O瓶颈。台积电3DFabric包(bao)括SoIC(硅(gui)晶圆(yuan)直接(jie)键合)、InFO和CoWoS(有(you)机基板2.5D)以及(ji)SoW(硅(gui)晶圆(yuan)级大规模封装)等多项方案,覆盖从移(yi)动(dong)端到(dao)超大规模AI系统的(de)不(bu)同需求。
台积电有关人员此前在技术研讨会披露,基(ji)(ji)于台积(ji)(ji)电N12工艺逻(luo)(luo)辑基(ji)(ji)底(di)的HBM4高带宽存储方(fang)案(an),将比当前HBM3e显著提升(sheng)1.5倍。若采用台积(ji)(ji)电N3P定制逻(luo)(luo)辑底(di)板,可将HBM I/O电压(ya)从1.1伏(fu)降至0.75伏(fu),进一步节(jie)省(sheng)内存访(fang)问功耗。

▲HBM4的带宽(kuan)与(yu)能效表现(xian)
在计算芯片与存储的互连上,台积电(dian)持续缩小(xiao)晶(jing)片间互连间距,其先进CoWoS封(feng)装将(jiang)微凸(tu)块间距从45µm缩小(xiao)到25µm,使2.5D封(feng)装的能(neng)效相较前代提升1.6倍。而采用垂直堆叠的(de)3D SoIC技术(shu),由于省(sheng)去了(le)有机(ji)中介层(ceng),能(neng)效相比2.5D方(fang)案大(da)幅提(ti)高(gao)6.7倍(bei)(但受限于工(gong)艺,目前3D封装(zhuang)单一(yi)基(ji)底规模(mo)约为1倍(bei)光(guang)罩面积(ji),相比2.5D CoWoS最高(gao)9.5倍(bei)光(guang)罩的(de)整合(he)面积(ji)略(lve)受限制(zhi))。
针对多芯粒系统的高速互连,台积电联合生态伙伴提供符合UCIe标准的Die-to-Die接口IP(如Alphawave、新思科技等),确保不同芯粒间的数据传输高效且兼容。值得(de)关注的是(shi),光(guang)互连技术也被提上日程:通过硅光(guang)子实现的共封(feng)装光(guang)学(Co-Packaged Optics),有(you)望让芯片间(jian)通信能效提高5-10倍,延迟(chi)降低10-20倍,并显著缩小系统尺寸(cun)。台积电指出,这将是突破传统(tong)电气(qi)互连物理极限的(de)关键(jian)方向。

▲引入(ru)光学技术势在必行
Meta平台基础架构工程师考什克·维拉拉加文(Kaushik Veeraraghavan)在论坛演讲中也佐证了这一观点,称当前电子互连已逼近(jin)极(ji)限,引入光学(xue)技术势在必行,“这已不单(dan)是(shi)工程问(wen)题,更是(shi)基础物(wu)理瓶颈”。此外,台(tai)积(ji)电联合(he)新思科技和ANSYS采用AI协(xie)同(tong)优化(hua)光学封装设计(ji),又进一步(bu)提升了(le)1.2倍的效率。
为了支撑高功率芯片,台积电还开发了超高性能金属-绝缘体-金属电容(UHPMIM)结合嵌入式深沟电容(EDTC)的解决方案,使电源系统单位面积去耦电容增加1.5倍且无信号完整性损失。同时(shi),台积电引入EDA-AI自(zi)动化(hua)工(gong)具,将(jiang)这种深沟电容的(de)版图插入效(xiao)率提高10倍,封(feng)装基(ji)板布线(xian)效(xiao)率提升100倍。通过(guo)上述封(feng)装(zhuang)(zhuang)和互(hu)连(lian)创新,台积电的能效提升不再仅依(yi)赖摩尔定(ding)律(lv)的晶(jing)体管缩放,而是(shi)通过(guo)封(feng)装(zhuang)(zhuang)与(yu)系(xi)统层面的集成实现数量(liang)级的进(jin)步。
二、5分钟完成2天设计流程,AI能找到比人更优的解决方案
台积电宣布与生态伙伴在EDA软件上深度合作,利用AI算法来(lai)优化(hua)芯片设计流程,从而(er)充分挖掘先(xian)进工艺和封(feng)装的潜(qian)力。

▲技术路线图
据路(lu)透社(she)消息,Cadence Design Systems与新(xin)思科(ke)技两大(da)EDA厂商同步(bu)推(tui)出了AI驱动的(de)设(she)计工(gong)具。这(zhei)些工(gong)具与台积电(dian)的(de)工(gong)艺平台进(jin)行了深度(du)对(dui)接,特(te)别是针对(dui)A16(下一代约1.6纳米(mi)制(zhi)程(cheng)技术节(jie)(jie)点(dian))、N2P(2纳米(mi)制(zhi)程(cheng)的(de)增强版)、N3(3纳米(mi)制(zhi)程(cheng)技术节(jie)(jie)点(dian))等先进(jin)节(jie)(jie)点(dian)和3D-IC(三维集成电(dian)路(lu)技术,将多层(ceng)芯片(pian)堆叠封装)技术的(de)AI设(she)计认证流程(cheng)。
实测结果显示,在某些复杂芯片设计任务中,AI工具能够找到比人工更优的解决方案,并将设计优化时间从工程师的两天缩短到几分钟。台积电3D IC方法学部门副处长Jim Chang在演讲中分享了内部实验数据“AI工(gong)具仅需(xu)(xu)5分钟即(ji)可完(wan)成(cheng)工(gong)程(cheng)师需(xu)(xu)要2天才能(neng)完(wan)成(cheng)的优化工(gong)作”。Cadence称,基于台(tai)积电先(xian)进封装(zhuang)技术的(de)HBM4测试芯(xin)片(pian)(pian)已(yi)完成设(she)计(ji)验证,即(ji)将流片(pian)(pian),为下一(yi)代(dai)大算力芯(xin)片(pian)(pian)的(de)CoWoS-L封装(zhuang)打(da)下基础。
芯片IP供(gong)应(ying)商(shang)Rambus与Cadence指(zhi)出(chu),在边缘计算(suan)和高级辅助驾(jia)驶(ADAS)场景下,GDDR6显存以超过20Gbps带宽(kuan)提供(gong)了高性(xing)价比的方案,新一代GDDR7传输速度(du)可达36Gbps/pin,将满(man)足未来更高带宽(kuan)需求。
结语:AI需求井喷,倒逼芯片设计行业创新
随(sui)着(zhe)AI应用规模的快速扩(kuo)展(zhan),从数(shu)据中心(xin)到(dao)边(bian)缘设备,全球算力需求呈指数(shu)级增长,带动芯片功(gong)耗(hao)同步攀升(sheng)。在摩尔定律逐步放缓(huan)的当(dang)下,单(dan)纯依赖晶体管尺寸缩减已难以支(zhi)撑AI对性能(neng)(neng)与能(neng)(neng)效双重(zhong)要求。
在这(zhei)一背景下,能效革新愈发重要。值得注(zhu)意(yi)的是,AI本身不仅(jin)是算力消耗的主(zhu)因,更正逐步(bu)转(zhuan)化(hua)为芯片设(she)计领域的提效者。从协助工程师完成复杂电(dian)路优化(hua),到参(can)与能效建模、功耗预测,AI正深度(du)嵌入EDA工具链(lian)、封装架构(gou)规(gui)划及能源(yuan)调(diao)度(du)等(deng)多个环节。
来源:路透社(she)、台积电(dian)、Cadence、Rambus