在智猩猩联合主办的2025中国AI算力大会上,中昊芯英创始人及CEO杨龚轶凡围绕《从GPU 到 TPU,同等制程3-5倍性能跃升的 AI 芯片演进之路》这(zhei)一主(zhu)题(ti)(ti)在主(zhu)会(hui)场高(gao)峰(feng)论坛(tan)带来(lai)了主(zhu)题(ti)(ti)演讲。

要点提炼:

  • 没有人能够说自己一两年就可以做到量产很大、可以用的芯片,没有10年的积累是做不到的。
  • 中昊芯英当期的 TPU 芯片产品用于AI计算场景时算力性能超越海外知名GPU芯片近 1.5 倍,能耗降低 30%,公司很快将推出第二代性能更强大的TPU AI 芯片产品。
  • TPU的发展有两个方向,一个是单芯片的性能,另一个是集群性能。
  • 今天和未来,所有跟AI芯片关联的设计理念,都需要考虑如何实现高效的网络互联。
  • TPU在网络架构中实现了二维环2D Torus,当然还有更先进的3D Torus,这是其在片间网络上的创新。
  • MoE(Mixture of Experts,混合专家模型,是一种机器学习方法)已经成了标配,大模型里如果没有MoE,是没有价值的。
  • 因为大模型对计算和带宽的需求,今天大家在运行大模型服务的时候,都在用H100、H200,大模型的训练和推理是一块芯片,分离不了,除非有新的路线和创新出现,未来推理芯片和训练芯片才会有逐步分化
  • 随着模型的逐步收敛,CUDA的价值在逐步降低。
  • 数据的重要性逐步上升,未来是否有合规的行业数据,可能会成为企业的核心竞争力。

演讲全文:

杨龚轶凡:大家好,我今天分享的主(zhu)题是《从GPU到TPU,同等制程3-5倍性能跃升(sheng)的AI芯(xin)片(pian)演进(jin)之路》。接下(xia)来,我将主(zhu)要和大家分享中昊芯(xin)英从2018年我们回国落地(di)到今天将近7年时间,对行业的核心思考(kao),以及最近AI大模(mo)型产(chan)业快速变迁的过程中,未(wei)来我们要支持(chi)什(shen)么,以及为(wei)什(shen)么我们今天需要AI专(zhuan)用芯(xin)片(pian)。

首先(xian)做个简(jian)单的介绍,我从2011年斯(si)坦福毕业之(zhi)后,就一直(zhi)在美国甲骨文做高性能(neng)CPU。到2017年的时候发(fa)现摩尔定(ding)律在生产制程的迭(die)代过程中(zhong)在逐(zhu)步减缓,所以我们认为继续做通用计算(suan)的意义不太大,未来肯(ken)定(ding)会有一些新的方向去迭(die)代整个计算(suan)领域。

2017年的时候我们认为(wei)AI浪潮来了,所以当时甲骨文整个做CPU的团都(dou)去(qu)做各(ge)种各(ge)样的AI芯片(pian),比(bi)如(ru)美国比(bi)较有名的SambaNova等。而我们团队(dui)则去(qu)了谷歌,开(kai)创了TPU这个方向。

在谷(gu)歌TPU 2/3/4实(shi)践落地(di)的(de)过(guo)程中,我们完(wan)成了(le)著名(ming)的(de)Transformer模型的(de)落地(di)。它的(de)Attention和MatMul是基于TPU硬(ying)件特性优化开发的(de)。

有了Transformer的(de)实践落地(di)(di),我(wo)们认为(wei)AGI实现(xian)的(de)可(ke)(ke)能(neng)性大(da)幅度提升。2017年(nian)(nian)的(de)时候我(wo)们预(yu)计(ji)24、25甚(shen)至26年(nian)(nian)的(de)时候,AGI大(da)概率会落地(di)(di),我(wo)们可(ke)(ke)以逐步实现(xian)真正的(de)人(ren)工智能(neng),AI将进而成(cheng)为(wei)整(zheng)个人(ren)类(lei)社会的(de)生产力核(he)心。

基(ji)于(yu)这种对AI 的(de)信念,我们决定投身于(yu)做TPU类似方(fang)向(xiang)的(de)AI芯片设计研发和(he)(he)产(chan)业(ye)落地。我们相信未来算力(li)会成为整个产(chan)业(ye)的(de)核(he)心,这个方(fang)向(xiang)将重构和(he)(he)迭(die)代整个计算的(de)可能(neng)性(xing),因此我们成立了中昊芯英(ying)。

从(cong)2018年开(kai)始(shi),我们已经能(neng)(neng)够看到整个人工智(zhi)能(neng)(neng)需求的(de)变化,再(zai)到今天随(sui)着ChatGPT和国(guo)产DeepSeek的(de)出现,大家在生活中已经开(kai)始(shi)使用大模型去完成各种各样的(de)任务。

在(zai)工作(zuo)当(dang)中(zhong)(zhong),无论国(guo)际还(hai)是(shi)国(guo)内,我们看到变化最大(da)(da)的领域其实就是(shi)写程(cheng)序。在(zai)美国(guo)很(hen)多知名(ming)的公司中(zhong)(zhong),90%的简单程(cheng)序已经在(zai)使用大(da)(da)模型(xing)自动生成,并且(qie)已经在(zai)改变人机交互的方(fang)式,以及传统程(cheng)序员的工程(cheng)实现方(fang)式。

在国内,包括我们公司在内,目前(qian)大概20%-40%的程(cheng)序是由大模型来完成书写,以及(ji)进行找bug。

相信未来(lai)三年左右,程(cheng)序(xu)员(yuan)实(shi)际的(de)写程(cheng)序(xu)能力都将被迭代成综合解(jie)决方(fang)案能力,解(jie)决方(fang)案可以由大模型(xing)去逐步去实(shi)现。在这个过程(cheng)中,AI已(yi)经(jing)对各种(zhong)各样(yang)的(de)产业产生了深远的(de)影响(xiang)。

这只(zhi)是(shi)一个(ge)行业(ye)案例。在过去1-2年左右,我们也在各个(ge)行业(ye)看到了AI的落地(di)。只(zhi)是(shi)说在程(cheng)(cheng)(cheng)序(xu)员替代的过程(cheng)(cheng)(cheng)中(zhong)落地(di)实践最快(kuai)。因为做大模(mo)型的所有玩家,实际的工作人员就(jiu)是(shi)程(cheng)(cheng)(cheng)序(xu)员,程(cheng)(cheng)(cheng)序(xu)员最理解(jie)程(cheng)(cheng)(cheng)序(xu)员的需求,所以程(cheng)(cheng)(cheng)序(xu)员的替代是(shi)最快(kuai)的。

相信(xin)其他行业也将(jiang)(jiang)逐(zhu)步跟上(shang),未来3-5年,甚至最多10年内,我们(men)将(jiang)(jiang)迎来新一波人工(gong)(gong)智能浪(lang)潮(chao),或者(zhe)说新一波工(gong)(gong)业浪(lang)潮(chao),并将(jiang)(jiang)重新定义很(hen)多工(gong)(gong)作岗位(wei)。

中昊芯英创始人杨龚轶凡:模型逐步收敛,CUDA 价值呈现下降趋势

随着新的(de)工(gong)作岗位(wei)的(de)定(ding)义,和AI落地实践(jian)的(de)逐步(bu)爆发(fa),可以看到(dao)整个市场正在快速增(zeng)长。今(jin)年中国(guo)AIGC的(de)市场,包括算力市场的(de)预(yu)期在内,已经超过(guo)2000亿人(ren)民(min)币。

从国(guo)际(ji)上来(lai)说,AI市场规(gui)模其实更大(da)。在(zai)过去一(yi)年,我们看到国(guo)内算力(li)芯片的需(xu)求(qiu)量(liang)在(zai)800亿(yi)人民(min)币左右,而国(guo)际(ji)的需(xu)求(qiu)量(liang)大(da)概在(zai)800-1000亿(yi)美金。

一、 大模型推动计算Infra变革

随着模(mo)型的(de)(de)迭(die)代,尤其是新(xin)的(de)(de)模(mo)型迭(die)代,它的(de)(de)算力消耗是非常高(gao)的(de)(de)。完(wan)成一次模(mo)型的(de)(de)训练和(he)推理的(de)(de)算力值(zhi)都(dou)极(ji)高(gao),已经(jing)达到1025甚至更高(gao)。

推理过程也跟以(yi)前产生了很大(da)的(de)(de)(de)区(qu)别,这就(jiu)是刚才(cai)说为(wei)什(shen)么(me)新(xin)(xin)的(de)(de)(de)计(ji)算(suan)范(fan)式(shi)会用新(xin)(xin)的(de)(de)(de)模(mo)型去定义和重(zhong)构的(de)(de)(de)原因(yin),传统计(ji)算(suan)的(de)(de)(de)Infra为(wei)什(shen)么(me)在新(xin)(xin)的(de)(de)(de)领域不能用,核心点(dian)就(jiu)在这里,当模(mo)型越来越大(da)之后,它(ta)已经在颠覆了传统的(de)(de)(de)计(ji)算(suan)方(fang)式(shi)。

传统的计算方(fang)式就像是我们(men)拿出一个手机(ji),你可(ke)以同时用很(hen)多应(ying)用。什么概念呢?小小的一块芯片(pian)无(wu)论它(ta)是5nm还是10nm,跑的都(dou)是多个应(ying)用。今天大(da)模(mo)型变(bian)大(da)之后,发现一个很(hen)有趣的现象,现在一个算法、一个模(mo)型、一个应(ying)用,即(ji)使(shi)是简单跑个推理(li),4块芯片(pian)都(dou)不够用。

我们知道(dao)模型(xing)有(you)history,有(you)token length,token length越长代表(biao)模型(xing)的(de)(de)(de)记忆力越好。现(xian)在(zai)(zai)的(de)(de)(de)模型(xing)已经从之前的(de)(de)(de)几千的(de)(de)(de)token length到现(xian)在(zai)(zai)的(de)(de)(de)10万(wan)甚至百万(wan)级别,这个过程也(ye)意味着(zhe)其对内存和计算的(de)(de)(de)挑战非常大(da)。一些大(da)模型(xing),已经开始(shi)用8卡甚至多机互连的(de)(de)(de)方(fang)式,才(cai)能(neng)完成推理。

几年前(qian),训练Yolo这(zhei)类(lei)小模(mo)型,使用(yong)一个机器、或(huo)者(zhe)(zhe)最多两个机器,只需要16卡就(jiu)可以完(wan)成,但是(shi)今天的大(da)模(mo)型千(qian)卡都(dou)不够。没有(you)(you)任(ren)何一个做预训练的玩家会说,我有(you)(you)千(qian)卡的H100/B200,或(huo)者(zhe)(zhe)千(qian)卡的国(guo)产芯片就(jiu)能够完(wan)成任(ren)何有(you)(you)价值(zhi)的模(mo)型训练,这(zhei)是(shi)不可能的,因为需要的是(shi)万卡集群。

所以我们(men)看到整(zheng)个计算的Infra都在迭代,在迭代过程中我们(men)就需要有(you)创新。比如我们(men)中昊芯英在芯片层面有(you)创新,更多的合作伙伴在系统(tong)、应(ying)用(yong)上(shang)有(you)创新,这是(shi)AI对整(zheng)个计算领(ling)域的迭代和需求。

二、 AI专用芯片是AI Infra的必然发展趋势

随着创新(xin)的(de)出现(xian),我们(men)认为芯(xin)片本身也(ye)有创新(xin)的(de)机会。回(hui)看计算芯(xin)片的(de)发展历(li)史的(de)时候,我们(men)可以看到(dao)芯(xin)片的(de)架(jia)构总是从通用(yong)向(xiang)专用(yong)型去发展。为什么会这样发展呢?

首先专用型芯片(pian)开销非常高,特别是今天把软件栈的开销也算进去之后。之前一(yi)块(kuai)(kuai)(kuai)12nm的芯片(pian),把芯片(pian)做出(chu)来实际投(tou)(tou)入大(da)概(gai)在1.5亿(yi)人(ren)民币,做到量产(chan)(chan)并且把软件栈的开销全部算进去,大(da)概(gai)3亿(yi)人(ren)民币,也就是5000万美金,这个我觉(jue)得国际上(shang)大(da)家相(xiang)互(hu)之间是认可的。一(yi)块(kuai)(kuai)(kuai)7nm的芯片(pian)需要8000万美金,再往(wang)下走的话(hua),需要上(shang)亿(yi)美金才能(neng)完成一(yi)块(kuai)(kuai)(kuai)芯片(pian)从(cong)零到量产(chan)(chan)的过程。这么大(da)的资金投(tou)(tou)入,如果产(chan)(chan)品对应(ying)的市场(chang)不够大(da),就没有价值,投(tou)(tou)资产(chan)(chan)出(chu)比是不够的。

所以在行(xing)业(ye)早期的(de)时候(hou),一般都是通(tong)用器件去(qu)适(shi)应新行(xing)业(ye)的(de)出现。只有(you)当行(xing)业(ye)规模足够(gou)大、足够(gou)有(you)价(jia)值的(de)时候(hou),才会逐步去(qu)定(ding)义新的(de)架构(gou)和微架构(gou)的(de)芯(xin)片。因(yin)为定(ding)义新的(de)架构(gou)和微架构(gou),能够(gou)提高(gao)芯(xin)片的(de)计算效率,提升性价(jia)比。

一个很简(jian)单的(de)直观体验,如(ru)果(guo)用通用器件来(lai)完成一个模型训练,投入成本(ben)是按亿(yi)美金来(lai)计算,而如(ru)果(guo)使用专用器件,可以(yi)将投入成本(ben)降到千万级,这就是它的(de)核(he)心优势。

无论是国内还是国际(ji)上,整个(ge)AI Infra的(de)需(xu)求(qiu)非常大(da),已经是百亿人(ren)民币到千亿美金的(de)量级。所以这(zhei)个(ge)时(shi)候,新的(de)AI芯片(pian)已经成为了整个(ge)产业的(de)开发方(fang)向。

上图我列举(ju)了ISSCC、ISCA和HotChips历(li)年(nian)来(lai)AI相关(guan)的(de)论(lun)文占比。不(bu)管是(shi)学术届还是(shi)产业界,ISSCC、ISCA和HotChips都是(shi)顶会(hui)的(de)标准。它们(men)(men)不(bu)仅包含了前面提到的(de)大芯(xin)片(pian)或者数据中心(xin)芯(xin)片(pian),而且包括(kuo)所有的(de)芯(xin)片(pian)技(ji)术,从物理底层技(ji)术到微架构,涵盖手(shou)机芯(xin)片(pian)、蓝(lan)牙芯(xin)片(pian)等,所有的(de)芯(xin)片(pian)设计都可(ke)以去发(fa)顶会(hui)。我们(men)(men)发(fa)现AI的(de)比例越(yue)来(lai)越(yue)高,去年(nian)综合(he)下来(lai)接近30%的(de)论(lun)文都和AI相关(guan)。

通过这(zhei)个(ge)数据,我们可(ke)以看到(dao)整个(ge)行业的发(fa)展趋(qu)势,这(zhei)个(ge)赛道正在逐步从CPU、GPU这(zhei)类(lei)通用器(qi)(qi)件(jian)往定(ding)制化器(qi)(qi)件(jian)路径发(fa)展。我们认(ren)为(wei)定(ding)制路线能够(gou)比通用器(qi)(qi)件(jian)至少做到(dao)3-5倍,甚至10倍的性能提升。

三、 TPU架构比GPU更适合大模型计算

中昊芯英选择(ze)了跟谷歌一样的思路——TPU。

做TPU不是(shi)(shi)一个简(jian)单的事情,从(cong)0到(dao)1的过(guo)程需要很(hen)(hen)长的时(shi)间,哪怕是(shi)(shi)谷(gu)歌(ge),他(ta)们的TPU也是(shi)(shi)去(qu)年(nian)才终于被(bei)用到(dao)苹果和其他(ta)产业的大(da)模型训练中。谷(gu)歌(ge)从(cong)0到(dao)1用了很(hen)(hen)长时(shi)间,从(cong)1到(dao)100用了更长时(shi)间。谷(gu)歌(ge)的TPU从(cong)0开始,到(dao)去(qu)年(nian)280万片(pian)的芯(xin)片(pian)量产,这个过(guo)程用了整(zheng)整(zheng)10年(nian)时(shi)间。

这(zhei)也(ye)是(shi)(shi)半导体产业本身不(bu)可打(da)破的(de)规律,没有(you)人能够说自己一两(liang)年(nian)就可以做(zuo)到量产很大、可以用的(de)芯(xin)片(pian),这(zhei)是(shi)(shi)不(bu)可能的(de),没有(you)10年(nian)的(de)积累是(shi)(shi)做(zuo)不(bu)到的(de)。中昊芯(xin)英也(ye)是(shi)(shi)花了5年(nian)的(de)时间(jian),把一块芯(xin)片(pian)从0到1并实现量产,在去年(nian)开始实现硬件(jian)生态的(de)打(da)造和软件(jian)生态的(de)适配。

今(jin)年我们(men)能(neng)够自豪(hao)的(de)(de)说,在大部(bu)分模(mo)型的(de)(de)实测(ce)过程中,我们(men)已经能(neng)用比海外领(ling)先(xian)的(de)(de)GPU芯片低一个量级的(de)(de)生(sheng)产制(zhi)程,实现1.5倍性能(neng)提升的(de)(de)同时,将功耗降低到75%。

此外,我们也定义了新的集群(qun)连接(jie)方式,能(neng)够支(zhi)持千(qian)卡集群(qun)内1024片芯片直(zhi)接(jie)光模(mo)块(kuai)高(gao)速片间(jian)互联,并且有了千(qian)卡集群(qun)的落(luo)地(di)实践,同时还在行业中(zhong)完成(cheng)了大模(mo)型训练和(he)推理的落(luo)地(di)。

在这个(ge)过(guo)程中(zhong),我们(men)(men)也积累了一些(xie)经验,和(he)大家分享下(xia)在新的(de)模型和(he)芯片(pian)设(she)计(ji)方向上,我们(men)(men)的(de)思考和(he)收获。

前(qian)面(mian)提到(dao)芯(xin)片(pian)(pian)设计要花费很长时(shi)(shi)间(jian),中昊芯(xin)英从2018年发(fa)展到(dao)现在(zai)近7年时(shi)(shi)间(jian),已(yi)经逐步开(kai)始下一代(dai)(dai)芯(xin)片(pian)(pian)的(de)(de)迭(die)代(dai)(dai)。中昊芯(xin)英当期(qi)迭(die)代(dai)(dai)的(de)(de)芯(xin)片(pian)(pian)“刹那®”用(yong)于AI计算场景时(shi)(shi),算力性能(neng)超(chao)越(yue)海外知名GPU芯(xin)片(pian)(pian)近 1.5 倍,能(neng)耗降低 30%。我们(men)的(de)(de)第二代(dai)(dai)性能(neng)更强大(da)的(de)(de)TPU AI 芯(xin)片(pian)(pian)产品已(yi)经在(zai)研发(fa)的(de)(de)最后阶(jie)段,很快(kuai)就会面(mian)向市(shi)场推(tui)出(chu)。

自(zi)研(yan)芯片的(de)核心价值在于(yu),有(you)(you)了自(zi)己设(she)计的(de)TPU之后(hou),所有(you)(you)的(de)IP没有(you)(you)外购,全部国产自(zi)主可控,这样就有(you)(you)了迭代的(de)能(neng)力,并知道未来迭代的(de)方向。

TPU的发展有两个方向,一个是单芯片的性能,另一个是集群性能。为(wei)什么要分这两个方向呢?刚才(cai)提到一个模型现在需要千卡甚至(zhi)万卡才(cai)能(neng)完成训练(lian),推理也(ye)是16卡到32卡的阶段。

比如(ru)DeepSeek-R1的(de)满血版,真正看性能(neng)(neng)的(de)话会发现,不管(guan)国(guo)产(chan)芯片(pian)产(chan)品还是国(guo)外芯片(pian)产(chan)品,至少16卡是标配,很多能(neng)(neng)跑性能(neng)(neng)的(de)是24卡到32卡,因此其片(pian)间互(hu)联(lian)能(neng)(neng)力(li)会成(cheng)为架构的(de)核心痛点。

今天和未来,所有跟AI芯片关联的设计理念,都需要考虑如何实现高效的网络互联。这(zhei)里包(bao)含两个方面(mian),一方面(mian)是芯(xin)片(pian)内部的(de)定义,另一方面(mian)是芯(xin)片(pian)间的(de)网络(luo)怎么构建。因(yin)为现在芯(xin)片(pian)的(de)使用方式跟传统的(de)计算方式是有很大区别的(de)。

比如传统的(de)(de)(de)(de)CPU也好,大(da)家用的(de)(de)(de)(de)手机(ji)也好,其网络架(jia)构的(de)(de)(de)(de)一(yi)个(ge)核(he)心思路(lu),是(shi)流量(liang)是(shi)可(ke)以(yi)(yi)(yi)分(fen)时(shi)进(jin)行分(fen)享(xiang)的(de)(de)(de)(de),就像(xiang)今天会(hui)场的(de)(de)(de)(de)所有人不会(hui)同时(shi)全部只使用一(yi)个(ge)手机(ji)APP。一(yi)个(ge)交(jiao)换机(ji)可(ke)以(yi)(yi)(yi)接很多人,交(jiao)换机(ji)的(de)(de)(de)(de)链路(lu)带宽(kuan)需(xu)求不是(shi)所有玩家需(xu)求的(de)(de)(de)(de)总(zong)和(he),它是(shi)可(ke)以(yi)(yi)(yi)做 directing 的(de)(de)(de)(de)。

但是AI的(de)计算过(guo)程是不同的(de)。如果用(yong)1000张卡(ka)来训(xun)练,他(ta)们会同时开(kai)启(qi),同时结束,同时需要数据交互,所以传统的(de)网络(luo)架构其实(shi)是不适(shi)合(he)的(de)。我(wo)们在实(shi)践中发现事实(shi)也是这样的(de)。

因(yin)此,我们在网络架(jia)构中实(shi)现了二(er)维环2D Torus,当然还有更先进(jin)的(de)3D Torus,这是我们在片间(jian)网络上的(de)创新。

片内的(de)设计我们(men)做了哪些创新呢?当我们(men)把传统的(de)GPU和CPU分(fen)开看,来研究它(ta)们(men)的(de)能耗分(fen)布,一(yi)个很有趣的(de)现象是,大家本来认(ren)为CPU、GPU应该是计算导向型的(de)器件(jian),但实际上(shang)它(ta)的(de)能耗里(li)超过40%用于控制,计算和数据(ju)的(de)能耗占比反而不够高。

所以在设计TPU的时候,我们刻意把“控制”的这个这部分进行了降低和重调,让计算和数据的读取、搬运成为能耗的主要贡献者。但这里也(ye)有(you)一(yi)个(ge)坏处,就(jiu)是降低了它的灵活(huo)性,所以TPU核心的AI芯片灵活(huo)性是不如GPU的。

四、 TPU驱动软件栈变革

这(zhei)里又回到另一个问题(ti),到底是软件(jian)(jian)定义(yi)硬(ying)件(jian)(jian)还是硬(ying)件(jian)(jian)定义(yi)软件(jian)(jian)?这(zhei)也是历史争论,我(wo)们今天也没(mei)法给出(chu)答案。但是从我(wo)们的(de)工程实(shi)践来看,二者(zhe)是相互促进(jin)的(de)。因为(wei)有了像TPU这(zhei)样灵(ling)活性不如GPU,但是性价比和性能比GPU更强的(de)芯片,所以软件(jian)(jian)栈(zhan)也发生了新的(de)变革。

举一(yi)个(ge)简(jian)单的例(li)子(zi)。为(wei)什(shen)么有段时(shi)间MoE会出(chu)(chu)现?MoE其实是谷歌提出(chu)(chu)来(lai)的,因为(wei)TPU的灵活性不(bu)如GPU,GPU的模型可(ke)以变各种各样的造(zao)型,TPU做不(bu)到(dao)怎(zen)么办(ban)?

TPU的并行能力比GPU强,通过多跑几个模型,然后取一个共识,这样模型的性能也可以提升。所以我们看到硬件的出现也会去影响和改变软件。MoE已经成了标配,大模型里如果没有MoE我们会认为它没有价值。

有了定制化(hua)芯片的(de)硬件内部(bu)结构和网络(luo)(luo)拓扑,我们(men)做了一些简(jian)单的(de)对(dui)比。我们(men)有自己(ji)的(de)硬件网络(luo)(luo)栈,也(ye)有完(wan)整定义的(de)软件网络(luo)(luo)栈。

在千卡(ka)集群的(de)实(shi)测中发现,我(wo)们发现中昊(hao)芯(xin)英的(de)TPU芯(xin)片的(de)延时带宽的(de)测试数据,跟特斯拉Dojo的(de)TTPoE工程实(shi)践差不多是同一水平,我(wo)们已经做到(dao)了(le)比传(chuan)统网络(luo)带宽高(gao)很多,相比NVLink也已经拉开了(le)一定的(de)优势(shi)。

这是我认为AI芯片未来(lai)的(de)(de)优势,它(ta)的(de)(de)每一个技术方向都(dou)会(hui)比通(tong)用器件(jian)和通(tong)用的(de)(de)协议要好,这样(yang)(yang)总体上(shang)才(cai)能在同(tong)样(yang)(yang)的(de)(de)生(sheng)产制(zhi)程、同(tong)样(yang)(yang)的(de)(de)工(gong)艺、同(tong)样(yang)(yang)的(de)(de)面积、同(tong)样(yang)(yang)的(de)(de)成本的(de)(de)情况下(xia),实现3倍(bei)、5倍(bei)甚至10倍(bei)的(de)(de)性能提升,降低AI使用的(de)(de)落地(di)成本。

今天AI的使用(yong)成本(ben)太高(gao)了,我们做了很(hen)多行业(ye)(ye)的实际商业(ye)(ye)落(luo)地,发(fa)现很(hen)多行业(ye)(ye)的ROI是不合适(shi)的。

比如拿671B满血版(ban)的(de)DeepSeek模型来替代(dai)一部分(fen)人工(gong)的(de)工(gong)作,基本投入400万,但是(shi)招一个员(yuan)工(gong)一年(nian)也就二(er)三十万的(de)成本,所以ROI很难做到合理。

未来如何让AI以更合理的生产成本落(luo)地,核(he)心(xin)在于我们(men)如何在各个维(wei)度去降(jiang)低(di)成本。这是我认为未来AI芯(xin)片的发展方向。

五、 算法定义硬件的时代

虽然刚刚我们提到硬(ying)件定义软件已经有案例(li)了,那(nei)么(me)软件也会定义硬(ying)件。MoE就是一个很好的生(sheng)产实(shi)践,现在的模型都是MoE架构。

另外一(yi)个很有意思(si)的(de)现(xian)象,就是谷(gu)歌(ge)研发了(le)TPU,TPU的(de)一(yi)大(da)(da)创新点(dian)是它(ta)里面有Systolic Array(脉动阵(zhen)列),这(zhei)进而创造了(le)MatMul这(zhei)样的(de)计(ji)算(suan)方式,最(zui)后才有了(le)今天所有大(da)(da)模型基(ji)础架构的(de)核心算(suan)子——Attention。

但(dan)是Attention存(cun)(cun)在(zai)的(de)(de)问题是,它(ta)在(zai)对计算(suan)的(de)(de)需(xu)(xu)(xu)求(qiu)(qiu)非(fei)常大的(de)(de)同时(shi),对存(cun)(cun)储(chu)的(de)(de)要求(qiu)(qiu)也极高(gao)。我们现在(zai)说671B的(de)(de)模型它(ta)需(xu)(xu)(xu)要的(de)(de)存(cun)(cun)储(chu)空间,已经不是简单的(de)(de)671B参数量乘以(yi)每个参数两个字节(jie)的(de)(de)存(cun)(cun)储(chu)量,相当(dang)于300多(duo)GB的(de)(de)存(cun)(cun)储(chu)需(xu)(xu)(xu)求(qiu)(qiu),现在(zai)不是这样了(le)。因(yin)为Token length需(xu)(xu)(xu)要知道它(ta)的(de)(de)历(li)(li)史,历(li)(li)史越长,存(cun)(cun)储(chu)的(de)(de)东西就越多(duo)。因(yin)此Attention机制(zhi)导(dao)致671B参数需(xu)(xu)(xu)要的(de)(de)存(cun)(cun)储(chu)空间已经不是300多(duo)GB,有可能是3TB,这也是为什么需(xu)(xu)(xu)要这么多(duo)芯片(pian)的(de)(de)原因(yin)。

在这个过程中,软件栈已经(jing)在开始研究如何设计(ji)不同(tong)版本的(de)(de)(de)Attention。比(bi)如对于GPU来说最合理、最优(you)化的(de)(de)(de)是Linear Attention,因为GPU的(de)(de)(de)并行化计(ji)算能力没(mei)有其(qi)(qi)他(ta)(ta)AI芯片(pian)强,但是灵活性高,这也是Linear Attention的(de)(de)(de)设计(ji)思路。而Multi-Head Attention以及其(qi)(qi)他(ta)(ta)Attention对AI芯片(pian)有更(geng)好(hao)的(de)(de)(de)适配效果。相信新(xin)的(de)(de)(de)Attention机制的(de)(de)(de)出现,也会(hui)定义(yi)一些(xie)新(xin)的(de)(de)(de)算子。

同样的(de)(de)(de)(de),使(shi)用了新(xin)的(de)(de)(de)(de)强化学习,包括(kuo)现在(zai)(zai)的(de)(de)(de)(de)模型蒸馏技术,也会逐步定义AI芯(xin)(xin)片(pian)(pian)硬件(jian)在(zai)(zai)推理(li)过程(cheng)和(he)训练过程(cheng)中(zhong)计算(suan)的(de)(de)(de)(de)区别。只有在(zai)(zai)这样的(de)(de)(de)(de)区别真(zhen)实(shi)产生以后,才会逐步实(shi)现大模型领域训练芯(xin)(xin)片(pian)(pian)和(he)推理(li)芯(xin)(xin)片(pian)(pian)的(de)(de)(de)(de)分化。

举个例子,今天大家在运行大模型服务的时候,都在用H100、H200,而训练用的也是H100、H200,那么大家以前说的推理芯片就没有价值了。因为大模型对计算和(he)带宽的(de)需求(qiu),导致在今(jin)天这个时代(dai),训(xun)练和(he)推(tui)理(li)是一(yi)块芯(xin)片(pian),分离不了。只有(you)新的(de)路线和(he)创新出(chu)现,未来推(tui)理(li)芯(xin)片(pian)和(he)训(xun)练芯(xin)片(pian)才会有(you)逐步分化(hua)的(de)标准,去(qu)重新定义核(he)心的(de)方向。

着新的模型出现及模型的逐步收敛,我们认为CUDA的价值在逐步降低。因为(wei)有了新的(de)(de)需(xu)求(qiu)和新的(de)(de)创新点(dian)的(de)(de)要求(qiu),模型(xing)在(zai)收敛的(de)(de)过程中,算子的(de)(de)数目会(hui)降低,对(dui)通(tong)用(yong)型(xing)工具链的(de)(de)需(xu)求(qiu)会(hui)降低,这(zhei)样无论对(dui)国(guo)产还是国(guo)际上的(de)(de)AI芯片,都带来了很(hen)好的(de)(de)红利(li)。

刚才我们提到芯片(pian)的成本很高,一(yi)块7nm的芯片(pian)需(xu)要(yao)一(yi)亿(yi)美(mei)金(jin),但(dan)是(shi)硬件(jian)关联(lian)(lian)的成本最多(duo)不超过2.5亿(yi)人民币,剩下(xia)大部分开(kai)销(xiao)至少有一(yi)半是(shi)跟软件(jian)栈关联(lian)(lian)的,甚至更(geng)多(duo)。

如果现在软件栈已经在收(shou)敛(lian),我(wo)们不(bu)需要(yao)开发那么(me)复杂、通用(yong)的(de)软件栈的(de)时候(hou),软件栈研发成(cheng)本和(he)(he)生态构建成(cheng)本就(jiu)会(hui)降低(di),这样对AI芯(xin)片的(de)市场(chang)化(hua)和(he)(he)量级就(jiu)有了很好的(de)突(tu)破。

一个(ge)很(hen)简(jian)单(dan)的实践论证(zheng),就是大(da)模(mo)型(xing)(xing)出(chu)来以后谷(gu)歌的TPU大(da)规(gui)模(mo)量(liang)产了(le),需求量(liang)增(zeng)加。前面(mian)提到,去(qu)年(nian)谷(gu)歌TPU的生(sheng)产量(liang)是280万(wan)片,NVIDIA GPU的生(sheng)产量(liang)大(da)概是400万(wan)片,这(zhei)意味着TPU去(qu)年(nian)占据(ju)了(le)全球超过30%的计算市场(chang)份额。这(zhei)是很(hen)难想象(xiang)的事情,因为(wei)在模(mo)型(xing)(xing)还(hai)没有收敛(lian)、CUDA工具(ju)链依然是绝对的桥头堡的时候,谷(gu)歌的TPU生(sheng)产量(liang)对比(bi)GPU是1:100。

六、 AI专用芯片落地迎来窗口期

所以(yi)我们可以(yi)认(ren)识到,随着模型的收敛(lian),AI模型越(yue)来(lai)越(yue)成熟,跟(gen)产业(ye)的结合越(yue)来(lai)越(yue)深入,落地(di)越(yue)来(lai)越(yue)合理,它的商(shang)业(ye)价值会逐步(bu)提升,AI芯(xin)片(pian)落地(di)也终于(yu)迎(ying)来(lai)了(le)它的时代。

对于中昊芯(xin)英(ying)来(lai)说,我们进行(xing)了产品结构的(de)(de)(de)标(biao)准(zhun)化,实现了完整的(de)(de)(de)千卡集群落地,同时(shi)还构建了自己的(de)(de)(de)行(xing)业模型(xing)。

我们认为未(wei)来的(de)(de)计算方式一定是一个(ge)基础大(da)模型、一个(ge)基础架构。因为现在有了MCP,有了A2A,Agent已经可以训练(lian)得非(fei)常好,再(zai)跟实(shi)际行业落(luo)地(di)的(de)(de)数据公司进行合作,提(ti)供基本的(de)(de)工具(ju)链,就能够实(shi)现在具(ju)体领域的(de)(de)模型落(luo)地(di)。

这也给了我们一个新的思考,数据的重要性逐步上升,未来是否有合规的行业数据,可能会成为企业的核心竞争力。

在注重(zhong)自身芯(xin)片研发(fa)的同时,中(zhong)昊芯(xin)英(ying)还高(gao)度(du)重(zhong)视产(chan)学研深度(du)融合(he),目(mu)(mu)前,中(zhong)昊芯(xin)英(ying)与太极股份、浙江大学开(kai)展三方合(he)作(zuo),引(yin)入(ru)基于中(zhong)昊芯(xin)英(ying)全(quan)自研的TPU架构高(gao)性(xing)能(neng)AI芯(xin)片“刹那®”构建的人(ren)工智(zhi)能(neng)服(fu)务(wu)器“泰则®”。该(gai)服(fu)务(wu)器通过(guo)强(qiang)大的计算能(neng)力,以(yi)及高(gao)能(neng)效比与良好的兼容性(xing),成功应用于浙江大学的多个科研项(xiang)目(mu)(mu)中(zhong)。

中(zhong)昊芯英还自研预训练大(da)(da)模(mo)(mo)型并为细分(fen)行业用户提供(gong)再训练/推理(li)接口,赋能金(jin)(jin)融(rong)、医(yi)疗、传媒、 营销(xiao)、教育、编程等多(duo)行业发展。其中(zhong),在金(jin)(jin)融(rong)领域,我们与国内(nei)头部(bu)金(jin)(jin)融(rong)机构(gou)国泰君安共创了(le)“泰则·练气”大(da)(da)模(mo)(mo)型,这是业界(jie)首款适用于金(jin)(jin)融(rong)数(shu)据处理(li)的(de)刚性大(da)(da)模(mo)(mo)型,具备结(jie)构(gou)化数(shu)据分(fen)析、作图 、处理(li)、建模(mo)(mo)等功能。

此(ci)外(wai),去年9月,中(zhong)昊芯(xin)英与深(shen)圳联(lian)通(tong)(tong)联(lian)合启动了广东地(di)区(qu)首个全采用国产(chan)TPU芯(xin)片的高性能AI智算(suan)中(zhong)心,形(xing)成训推(tui)一体化枢纽(niu),成为中(zhong)国联(lian)通(tong)(tong)在(zai)深(shen)圳的核心智算(suan)高地(di)的重要组成部分。

在落地实(shi)践(jian)过(guo)程中,我们发现很多应用场景已经(jing)实(shi)现了(le)早(zao)期得拓展与落地了(le)。相信未来两三年之(zhi)后,大家会(hui)在很多行业的(de)实(shi)际生(sheng)产过(guo)程中看到大模型作(zuo)为核心生(sheng)产力的(de)身影。

在此,我也呼吁在座的(de)(de)(de)所(suo)有嘉宾,我们今天(tian)进入了一个(ge)(ge)新的(de)(de)(de)时代,新的(de)(de)(de)时代在改变我们,但不应该只有一部(bu)分人(ren)受(shou)到时代红利(li)的(de)(de)(de)影响(xiang)(xiang),而是能(neng)够影响(xiang)(xiang)到整(zheng)个(ge)(ge)行业,或者说(shuo)整(zheng)个(ge)(ge)国家的(de)(de)(de)所(suo)有角落。

所(suo)以中昊芯英做了很多(duo)商业(ye)向善(shan)项目(mu),这些商业(ye)向善(shan)项目(mu)并不是简单(dan)的捐赠,更多(duo)的是把我们对AI未(wei)来(lai)的预(yu)期、世界的预(yu)期,带到(dao)(dao)原来(lai)接触不到(dao)(dao)这些事(shi)情的角落里去。让(rang)他们也(ye)能(neng)接触到(dao)(dao)AI到(dao)(dao)底是什么(me),未(wei)来(lai)会发展(zhan)成什么(me)样,以及他们对自(zi)己的未(wei)来(lai)应该有什么(me)样的畅想。

所以,我们跟云南(nan)当(dang)(dang)地(di)山区的(de)(de)学(xue)校(xiao)(xiao)开展(zhan)合作,对云南(nan)当(dang)(dang)地(di)山村中小学(xue)生进(jin)行一对一帮(bang)扶;跟上海交通(tong)大学(xue)、浙江大学(xue)、杭州电子科(ke)技大学(xue)等(deng)(deng)高校(xiao)(xiao)达(da)成了(le)战略(lve)合作,还构(gou)建了(le)人才培养团队等(deng)(deng)。我们希望(wang)在他(ta)们年(nian)轻的(de)(de)时候,能够有很多自己的(de)(de)想法和观点,最后去(qu)支持(chi)整个(ge)产业的(de)(de)变迁。

以(yi)上就是我(wo)今天的分(fen)享(xiang),谢谢大家!