Arm把手机AI芯片开发变简单！最强CPU塞进AI加速，vivo阿里都说好

芯东西（公众号：aichip001）
作者 | ZeR0
编辑 | 漠影

芯东西9月10日报道，今日，Arm在上海发布全新Arm Lumex计算子系统（CSS）平台，专为旗舰级智能手机及下一代PC加速AI体验而打造，可实现两位数的性能增长。

这套先进计算平台集成了搭载第二代可伸缩矩阵扩展（SME2）技术的最高性能Arm CPU、GPU及系统IP，为桌面(mian)级移动游戏、实(shi)(shi)时(shi)翻(fan)译、智能助手(shou)、个性化应用等各种实(shi)(shi)时(shi)端(duan)侧AI用例带来更流畅、更快速的体验(yan)。

搭载SME2的Arm C1 CPU集群实现了显著的AI性能提升，包括AI性能提升高达5倍，语音类工作负载延迟优化至4.7倍，经典大语言模型任务性能提升多达4.7倍，音频生成速度提升多达2.8倍。

Lumex能够在设备端本地实现更快(kuai)、更安全且随(sui)时可用的(de)智(zhi)能体验。SME2已被(bei)阿(a)里巴巴、支付宝、三星System LSI、腾讯、vivo等业界(jie)领先的(de)生态伙伴采用。

Arm的(de)(de)每个计(ji)(ji)算(suan)子系统(tong)（CSS）都针对细分(fen)市场的(de)(de)独特需(xu)求进(jin)行了调整，通过缩短设计(ji)(ji)用时和降低(di)开(kai)发(fa)风险(xian)来加快(kuai)开(kai)发(fa)，已获得超过16次授权，其中超过一半都是去(qu)年完(wan)成(cheng)的(de)(de)。

Arm还(hai)将发(fa)布面向PC、物联(lian)网(wang)和(he)边缘计算的CSS平台。

一、Lumex：多款CPU与GPU按需组合，针对3nm优化

针对旗舰级设备，Arm Lumex CSS平台连续6年实现两位数的每时钟周期(qi)指(zhi)令数(shu)（IPC）性能提(ti)升。

全新Arm Lumex平台包含以(yi)下(xia)核心组件(jian)：

（1）新一代搭载SME2技术的Armv9.3 CPU：包括(kuo)Arm C1-Ultra和Arm C1-Pro，为(wei)旗舰(jian)设备提(ti)(ti)(ti)供(gong)支持，设备端性能可提(ti)(ti)(ti)升(sheng)多达(da)5倍(bei)、能效提(ti)(ti)(ti)升(sheng)多达(da)3倍(bei)。

（2）Arm C1-Premium：专为次旗舰市场打造，可提供一流的(de)面(mian)积效率。

（3）Arm Mali G1-Ultra GPU：配(pei)备(bei)新(xin)一代光线(xian)追踪技术，在实现先进(jin)的图形(xing)和(he)游(you)戏体(ti)验同时，还可提升整体(ti)AI性能(neng)。

（4）Arm C1-DSU：Arm迄今为止最灵活、高(gao)能效且具多种(zhong)电源模(mo)式(shi)的DynamIQ Shared Unit（DSU）。

（5）针对3nm工艺节点优化的物理实现。

（6）跨软(ruan)件栈的(de)(de)深度(du)集成，为使用KleidiAI软(ruan)件库的(de)(de)开发者提供无缝的(de)(de)AI加速体验(yan)。

相比Cortex-X925，C1-Ultra CPU的单线程性能提高25% ；相比Cortex-A725，C1-Pro的持(chi)续能效提升12%；相比Immortalis-G925，Mali G1-Ultra的性能提升20%，能效提升9%。

合作伙伴可(ke)灵活选择使用Arm Lumex的方式，来打(da)造SoC芯(xin)片。

例如，可以(yi)直接采用(yong)Arm交付的平(ping)台，并借助为其需(xu)求(qiu)定制的先进物理(li)实现方(fang)案，从(cong)而获得缩短产品上(shang)市(shi)时间(jian)和(he)快速兑现性能价值等(deng)双重优势；也可以(yi)根据目标(biao)市(shi)场(chang)，对平(ping)台寄存(cun)器传输级（RTL）设计进行配置，并自(zi)行完成核心模块的硬化工作(zuo)。

Arm Lumex为(wei)合(he)作伙伴(ban)提供(gong)了(le)充分(fen)的(de)自由(you)度，使(shi)其能(neng)从(cong)高端智能(neng)手机、PC到新兴AI优先设备(bei)的(de)各类产品中，实(shi)现峰值性能(neng)、持续能(neng)效(xiao)与芯(xin)片面(mian)积之间(jian)的(de)灵活平衡。

二、将AI加速集成到CPU中，用SME2大幅提升AI性能

新款CPU的(de)一大核(he)心技术(shu)是(shi)SME2。该技术(shu)能加快设备端CPU直接运行模型及AI工具的(de)速度。

Arm高级副(fu)总裁兼终端事业部(bu)总经理Chris Bergey说，AI已成(cheng)为下一代移动与消费(fei)技术(shu)的支撑(cheng)底座，依(yi)托Arm Lumex平台，Arm持续提升(sheng)端侧(ce)AI体验(yan)，正积极将(jiang)SME2技术(shu)扩展(zhan)至每(mei)一个CPU平台。

在实际场(chang)景中，SME2技(ji)术将响应速度与运行效率(lv)提(ti)升(sheng)至新水平。

SME2是(shi)最新(xin)(xin)CPU集群的(de)一(yi)项关键特性，为高效执行单(dan)(dan)侧(ce)AI而生，就是(shi)给CPU配备了一(yi)个新(xin)(xin)的(de)矩阵加速器，让复(fu)杂计算(suan)变得(de)更快(kuai)更省(sheng)电，同(tong)时支(zhi)持SME2的(de)新(xin)(xin)硬件与CPU、GPU等(deng)其他计算(suan)单(dan)(dan)元分工(gong)协作(zuo)，实现更高效的(de)端侧(ce)AI异(yi)构计算(suan)。

例如，得益于SME2技术，“智能瑜伽教练”演示应用的文本转语音生成速度提升多达2.4倍。

此外，Arm、支付宝与vivo的三方合作，将大语言模型的交互响应时间缩短了多达40%，证明了(le)SME2可为终(zhong)端设备带来更快(kuai)速的(de)实时生成式AI体验。

据vivo高级(ji)副(fu)总裁、CTO施玉坚分享，vivo蓝晶芯片技术栈新增(zeng)对SME2的支持，vivo计(ji)(ji)算加(jia)速(su)平台VCAP已全面(mian)支持SME2指令集，对视(shi)觉、语(yu)音、文本等(deng)AI计(ji)(ji)算任(ren)务实现了显著的性(xing)能(neng)加(jia)速(su)，例如在全局离线翻译场景(jing)，开启SME2硬件，能(neng)实现额外(wai)20%的性(xing)能(neng)收益。

再比如，在搭载SME2的单个核心上运行神经摄像头降噪功能，可在1080P分辨率下实现帧率超120帧/秒（fps），或在4K分辨率下实现帧率达30fps。这意味着智能(neng)手机用户即使身处光(guang)线最(zui)暗的场(chang)景(jing)，也能(neng)捕捉到更锐利、清晰的图(tu)像。

Arm预计到2030年，SME与SME2技术将为超过30亿台设备新增超100亿TOPS的计算能力，为端侧AI性能带来指数级跃升。

三、全新Mali G1-Ultra GPU：AI性能提升20%，光追性能翻倍

Arm GPU的芯片累计出货量已突破120亿颗。

全新Mali G1-Ultra GPU专为游戏玩家(jia)设计(ji)，拥有14个核心，可将AI推理性能提升最高20%，显著增强各类实时应用的响应速度；在各类图形基准测试中实现了20%的性能提升。

其第二代光线追踪（Ray Tracing Unit v2, RTUv2）技术显著提升光照、阴影与反射效果，使光线追踪性能提升至前代的2倍，并实现每帧功耗降低9%，为手游玩家(jia)带来(lai)高保(bao)真、主机级画(hua)质。

同时，Mali G1-Premium（6~9核心）与Mali G1-Pro（1~5核心）两款GPU，也为硬件资源(yuan)受限的设(she)备(bei)提供了更出(chu)色(se)的性能(neng)与能(neng)效(xiao)表现。

四、跨平台易迁移，满足生态系统AI开发需求

Lumex具备灵活性和可定制性，并提供全新的可迁移性：

Gmail、YouTube、Google Photos等谷歌应用现已全面支持SME2 ，搭载Lumex的设备一经上市即可无缝运行；
跨平台可迁移性意味着针对安卓构建的优化功能可无缝扩展至采用Arm架构的Windows及其他操作系统；
支付宝等合作伙伴已成功验证：依托SME2技术，终端设备上的大语言模型可实现高效运行。

苹果(guo)、三星、联发(fa)科等芯片巨头正积极集成AI加速功能，推动端侧(ce)AI向更快(kuai)速、更高效的方向发(fa)展。

阿里巴巴淘天(tian)集(ji)团业务技术(shu)MNN负责(ze)人姜霄棠说，通(tong)过(guo)与 SME2的深度集成，MNN现已能在智能手机端，为通(tong)义(yi)千问等十亿参数(shu)级大模型(xing)提供低延迟的量化推理能力。

支(zhi)付(fu)宝(bao)终(zhong)端(duan)技(ji)(ji)术(shu)负责人翁欣旦谈道，在(zai)Arm、支(zhi)付(fu)宝(bao)与(yu)vivo的三方密(mi)切协作下，支(zhi)付(fu)宝(bao)已在(zai)vivo新一代旗舰智能手机上完成了基于Arm SME2技(ji)(ji)术(shu)的大语言模(mo)型(xing)推理(li)验(yan)证。结果显(xian)示，在(zai)预(yu)填充与(yu)解码阶段，其性能分(fen)别实现了超过40%和(he)25%的提升。

据腾讯(xun)机器学(xue)习平台专(zhuan)家杨晓峰分(fen)享，SME2技术通过突破关键性能瓶颈，高效(xiao)助力大语(yu)言模型在移动(dong)端落地部署，如腾讯(xun)混元(yuan)大模型，为端侧大语(yu)言模型提供强(qiang)劲(jing)加速，最终带来更优质的用户体验。

开(kai)(kai)发(fa)者可在(zai)Arm Lumex平台(tai)上获取开(kai)(kai)机即用的(de)(de)AI开(kai)(kai)发(fa)体验，借(jie)助KleidiAI调用SME2技术带来的(de)(de)性能优(you)势。

KleidiAI已(yi)集(ji)成至所有主(zhu)流移动(dong)操作系(xi)统及AI框架中，包括PyTorch ExecuTorch、谷歌LiteRT、阿(a)里巴巴MNN、微软ONNX Runtime等。开发(fa)者无需(xu)修(xiu)改(gai)任何(he)代码，就能(neng)自动(dong)取得SME2的加(jia)速能(neng)力。

结语：为端侧AI加速提供定制芯片套餐

Arm Lumex是(shi)Arm面向(xiang)消费计算市场的最(zui)先(xian)进CSS平台，也被Arm视作(zuo)开启新时代(dai)智能体验的基石。

面向OEM厂商及开发者，Lumex可提供所需工(gong)具，助力其在关键端(duan)侧场景实(shi)现兼(jian)具个(ge)性化、隐私(si)保障与高性能的AI体验。

这(zhei)标志(zhi)着Arm战略的(de)(de)重大(da)转变，从提供半导体IP到提供全(quan)面的(de)(de)AI平台解(jie)决方案，以加速客户(hu)芯片设计(ji)及开(kai)发流(liu)程(cheng)，满足日益(yi)增长的(de)(de)设备端(duan)实时、保障安全(quan)隐私、始终(zhong)可用的(de)(de)AI应用需求。

国产成人亚洲精品狼色在线,亚洲成色www久久网站,强制高潮(h)调教,大伊香蕉在线精品视频75,日本无码少妇成人久久丫

一、Lumex：多款CPU与GPU按需组合，针对3nm优化

二、将AI加速集成到CPU中，用SME2大幅提升AI性能

三、全新Mali G1-Ultra GPU：AI性能提升20%，光追性能翻倍

四、跨平台易迁移，满足生态系统AI开发需求

结语：为端侧AI加速提供定制芯片套餐

相关推荐