芯东西(公众号:aichip001)
作者 | ZeR0
编辑 | 漠影
芯东西9月10日报道,今日,Arm在上海发布全新Arm Lumex计算子系统(CSS)平台,专为旗舰级智能手机及下一代PC加速AI体验而打造,可实现两位数的性能增长。
这套先进计算平台集成了搭载第二代可伸缩矩阵扩展(SME2)技术的最高性能Arm CPU、GPU及系统IP,为桌面(mian)级移动游戏、实(shi)(shi)时(shi)翻(fan)译、智能助手(shou)、个性化应用等各种实(shi)(shi)时(shi)端(duan)侧AI用例带来更流畅、更快速的体验(yan)。
搭载SME2的Arm C1 CPU集群实现了显著的AI性能提升,包括AI性能提升高达5倍,语音类工作负载延迟优化至4.7倍,经典大语言模型任务性能提升多达4.7倍,音频生成速度提升多达2.8倍。
Lumex能够在设备端本地实现更快(kuai)、更安全且随(sui)时可用的(de)智(zhi)能体验。SME2已被(bei)阿(a)里巴巴、支付宝、三星System LSI、腾讯、vivo等业界(jie)领先的(de)生态伙伴采用。
Arm的(de)(de)每个计(ji)(ji)算(suan)子系统(tong)(CSS)都针对细分(fen)市场的(de)(de)独特需(xu)求进(jin)行了调整,通过缩短设计(ji)(ji)用时和降低(di)开(kai)发(fa)风险(xian)来加快(kuai)开(kai)发(fa),已获得超过16次授权,其中超过一半都是去(qu)年完(wan)成(cheng)的(de)(de)。
Arm还(hai)将发(fa)布面向PC、物联(lian)网(wang)和(he)边缘计算的CSS平台。
一、Lumex:多款CPU与GPU按需组合,针对3nm优化
针对旗舰级设备,Arm Lumex CSS平台连续6年实现两位数的每时钟周期(qi)指(zhi)令数(shu)(IPC)性能提(ti)升。
全新Arm Lumex平台包含以(yi)下(xia)核心组件(jian):
(1)新一代搭载SME2技术的Armv9.3 CPU:包括(kuo)Arm C1-Ultra和Arm C1-Pro,为(wei)旗舰(jian)设备提(ti)(ti)(ti)供(gong)支持,设备端性能可提(ti)(ti)(ti)升(sheng)多达(da)5倍(bei)、能效提(ti)(ti)(ti)升(sheng)多达(da)3倍(bei)。
(2)Arm C1-Premium:专为次旗舰市场打造,可提供一流的(de)面(mian)积效率。
(3)Arm Mali G1-Ultra GPU:配(pei)备(bei)新(xin)一代光线(xian)追踪技术,在实现先进(jin)的图形(xing)和(he)游(you)戏体(ti)验同时,还可提升整体(ti)AI性能(neng)。
(4)Arm C1-DSU:Arm迄今为止最灵活、高(gao)能效且具多种(zhong)电源模(mo)式(shi)的DynamIQ Shared Unit(DSU)。
(5)针对3nm工艺节点优化的物理实现。
(6)跨软(ruan)件栈的(de)(de)深度(du)集成,为使用KleidiAI软(ruan)件库的(de)(de)开发者提供无缝的(de)(de)AI加速体验(yan)。
相比Cortex-X925,C1-Ultra CPU的单线程性能提高25% ;相比Cortex-A725,C1-Pro的持(chi)续能效提升12%;相比Immortalis-G925,Mali G1-Ultra的性能提升20%,能效提升9%。
合作伙伴可(ke)灵活选择使用Arm Lumex的方式,来打(da)造SoC芯(xin)片。
例如,可以(yi)直接采用(yong)Arm交付的平(ping)台,并借助为其需(xu)求(qiu)定制的先进物理(li)实现方(fang)案,从(cong)而获得缩短产品上(shang)市(shi)时间(jian)和(he)快速兑现性能价值等(deng)双重优势;也可以(yi)根据目标(biao)市(shi)场(chang),对平(ping)台寄存(cun)器传输级(RTL)设计进行配置,并自(zi)行完成核心模块的硬化工作(zuo)。
Arm Lumex为(wei)合(he)作伙伴(ban)提供(gong)了(le)充分(fen)的(de)自由(you)度,使(shi)其能(neng)从(cong)高端智能(neng)手机、PC到新兴AI优先设备(bei)的(de)各类产品中,实(shi)现峰值性能(neng)、持续能(neng)效(xiao)与芯(xin)片面(mian)积之间(jian)的(de)灵活平衡。
二、将AI加速集成到CPU中,用SME2大幅提升AI性能
新款CPU的(de)一大核(he)心技术(shu)是(shi)SME2。该技术(shu)能加快设备端CPU直接运行模型及AI工具的(de)速度。
Arm高级副(fu)总裁兼终端事业部(bu)总经理Chris Bergey说,AI已成(cheng)为下一代移动与消费(fei)技术(shu)的支撑(cheng)底座,依(yi)托Arm Lumex平台,Arm持续提升(sheng)端侧(ce)AI体验(yan),正积极将(jiang)SME2技术(shu)扩展(zhan)至每(mei)一个CPU平台。
在实际场(chang)景中,SME2技(ji)术将响应速度与运行效率(lv)提(ti)升(sheng)至新水平。
SME2是(shi)最新(xin)(xin)CPU集群的(de)一(yi)项关键特性,为高效执行单(dan)(dan)侧(ce)AI而生,就是(shi)给CPU配备了一(yi)个新(xin)(xin)的(de)矩阵加速器,让复(fu)杂计算(suan)变得(de)更快(kuai)更省(sheng)电,同(tong)时支(zhi)持SME2的(de)新(xin)(xin)硬件与CPU、GPU等(deng)其他计算(suan)单(dan)(dan)元分工(gong)协作(zuo),实现更高效的(de)端侧(ce)AI异(yi)构计算(suan)。
例如,得益于SME2技术,“智能瑜伽教练”演示应用的文本转语音生成速度提升多达2.4倍。
此外,Arm、支付宝与vivo的三方合作,将大语言模型的交互响应时间缩短了多达40%,证明了(le)SME2可为终(zhong)端设备带来更快(kuai)速的(de)实时生成式AI体验。
据vivo高级(ji)副(fu)总裁、CTO施玉坚分享,vivo蓝晶芯片技术栈新增(zeng)对SME2的支持,vivo计(ji)(ji)算加(jia)速(su)平台VCAP已全面(mian)支持SME2指令集,对视(shi)觉、语(yu)音、文本等(deng)AI计(ji)(ji)算任(ren)务实现了显著的性(xing)能(neng)加(jia)速(su),例如在全局离线翻译场景(jing),开启SME2硬件,能(neng)实现额外(wai)20%的性(xing)能(neng)收益。
再比如,在搭载SME2的单个核心上运行神经摄像头降噪功能,可在1080P分辨率下实现帧率超120帧/秒(fps),或在4K分辨率下实现帧率达30fps。这意味着智能(neng)手机用户即使身处光(guang)线最(zui)暗的场(chang)景(jing),也能(neng)捕捉到更锐利、清晰的图(tu)像。
Arm预计到2030年,SME与SME2技术将为超过30亿台设备新增超100亿TOPS的计算能力,为端侧AI性能带来指数级跃升。
三、全新Mali G1-Ultra GPU:AI性能提升20%,光追性能翻倍
Arm GPU的芯片累计出货量已突破120亿颗。
全新Mali G1-Ultra GPU专为游戏玩家(jia)设计(ji),拥有14个核心,可将AI推理性能提升最高20%,显著增强各类实时应用的响应速度;在各类图形基准测试中实现了20%的性能提升。
其第二代光线追踪(Ray Tracing Unit v2, RTUv2)技术显著提升光照、阴影与反射效果,使光线追踪性能提升至前代的2倍,并实现每帧功耗降低9%,为手游玩家(jia)带来(lai)高保(bao)真、主机级画(hua)质。
同时,Mali G1-Premium(6~9核心)与Mali G1-Pro(1~5核心)两款GPU,也为硬件资源(yuan)受限的设(she)备(bei)提供了更出(chu)色(se)的性能(neng)与能(neng)效(xiao)表现。
四、跨平台易迁移,满足生态系统AI开发需求
- Gmail、YouTube、Google Photos等谷歌应用现已全面支持SME2 ,搭载Lumex的设备一经上市即可无缝运行;
- 跨平台可迁移性意味着针对安卓构建的优化功能可无缝扩展至采用Arm架构的Windows及其他操作系统;
- 支付宝等合作伙伴已成功验证:依托SME2技术,终端设备上的大语言模型可实现高效运行。
苹果(guo)、三星、联发(fa)科等芯片巨头正积极集成AI加速功能,推动端侧(ce)AI向更快(kuai)速、更高效的方向发(fa)展。
阿里巴巴淘天(tian)集(ji)团业务技术(shu)MNN负责(ze)人姜霄棠说,通(tong)过(guo)与 SME2的深度集成,MNN现已能在智能手机端,为通(tong)义(yi)千问等十亿参数(shu)级大模型(xing)提供低延迟的量化推理能力。
支(zhi)付(fu)宝(bao)终(zhong)端(duan)技(ji)(ji)术(shu)负责人翁欣旦谈道,在(zai)Arm、支(zhi)付(fu)宝(bao)与(yu)vivo的三方密(mi)切协作下,支(zhi)付(fu)宝(bao)已在(zai)vivo新一代旗舰智能手机上完成了基于Arm SME2技(ji)(ji)术(shu)的大语言模(mo)型(xing)推理(li)验(yan)证。结果显(xian)示,在(zai)预(yu)填充与(yu)解码阶段,其性能分(fen)别实现了超过40%和(he)25%的提升。
据腾讯(xun)机器学(xue)习平台专(zhuan)家杨晓峰分(fen)享,SME2技术通过突破关键性能瓶颈,高效(xiao)助力大语(yu)言模型在移动(dong)端落地部署,如腾讯(xun)混元(yuan)大模型,为端侧大语(yu)言模型提供强(qiang)劲(jing)加速,最终带来更优质的用户体验。
开(kai)(kai)发(fa)者可在(zai)Arm Lumex平台(tai)上获取开(kai)(kai)机即用的(de)(de)AI开(kai)(kai)发(fa)体验,借(jie)助KleidiAI调用SME2技术带来的(de)(de)性能优(you)势。
KleidiAI已(yi)集(ji)成至所有主(zhu)流移动(dong)操作系(xi)统及AI框架中,包括PyTorch ExecuTorch、谷歌LiteRT、阿(a)里巴巴MNN、微软ONNX Runtime等。开发(fa)者无需(xu)修(xiu)改(gai)任何(he)代码,就能(neng)自动(dong)取得SME2的加(jia)速能(neng)力。
结语:为端侧AI加速提供定制芯片套餐
Arm Lumex是(shi)Arm面向(xiang)消费计算市场的最(zui)先(xian)进CSS平台,也被Arm视作(zuo)开启新时代(dai)智能体验的基石。
面向OEM厂商及开发者,Lumex可提供所需工(gong)具,助力其在关键端(duan)侧场景实(shi)现兼(jian)具个(ge)性化、隐私(si)保障与高性能的AI体验。
这(zhei)标志(zhi)着Arm战略的(de)(de)重大(da)转变,从提供半导体IP到提供全(quan)面的(de)(de)AI平台解(jie)决方案,以加速客户(hu)芯片设计(ji)及开(kai)发流(liu)程(cheng),满足日益(yi)增长的(de)(de)设备端(duan)实时、保障安全(quan)隐私、始终(zhong)可用的(de)(de)AI应用需求。