智东西(公众号:zhidxcom)
作者|依婷
编辑|漠影

智东西12月5日报道,2022年ChatGPT面世即(ji)万众瞩目,又在(zai)两个月内(nei)获得了(le)1亿注册用户,点燃了(le)大(da)众对AI的期待(dai),也让业(ye)界看到了(le)AI大(da)模(mo)型技术广(guang)泛的应用前(qian)景。

两(liang)年(nian)间,AI大(da)(da)模(mo)型(xing)如雨后(hou)春笋般涌现。中(zhong)国信通(tong)院(yuan)数(shu)(shu)据显示,截至2024年(nian)7月(yue),全球(qiu)AI大(da)(da)模(mo)型(xing)数(shu)(shu)量为1328个(包含同(tong)一企业(ye)、同(tong)一模(mo)型(xing)的不同(tong)参数(shu)(shu)版(ban)本),中(zhong)国大(da)(da)模(mo)型(xing)数(shu)(shu)量占(zhan)比(bi)36%。行业(ye)对模(mo)型(xing)的研发和应用也已经从最(zui)开始的大(da)(da)语言模(mo)型(xing),走到了多模(mo)态模(mo)型(xing)。而算力(li)、网络等AI大(da)(da)模(mo)型(xing)赖以生存和发展的基(ji)础设施,仍需要(yao)不断优(you)化。

在中国(guo)大模型(xing)进入所谓(wei)“洗牌年”的(de)(de)(de)节点上,昨日(ri),智(zhi)东西(xi)等媒体(ti)和中国(guo)AI大模型(xing)独角兽MiniMax副总裁刘华、腾讯云北区云原生总经(jing)理田(tian)丰进行了(le)交流。他们从双方公司(si)的(de)(de)(de)合作(zuo)出发,谈及了(le)算力、网络对AI大模型(xing)落地应用带来的(de)(de)(de)影响。

一、多模态大模型期待更有性价比的算力

MiniMax成(cheng)立于(yu)2021年12月(yue),是“国产大(da)模型(xing)六(liu)小虎”之一(yi),自主研发了包括万亿(yi)参(can)数的MoE文本大(da)模型(xing)、语音(yin)和音(yin)乐(le)大(da)模型(xing)、图像(xiang)大(da)模型(xing)、视频(pin)大(da)模型(xing)在(zai)内的多(duo)模态通用大(da)模型(xing)。

成(cheng)立至今三年,基于不同(tong)模(mo)态的(de)通用大模(mo)型(xing),MiniMax推出了智(zhi)能助手“海螺AI”、AI内容(rong)社区“星野(ye)”“Talkie”等C端应用;MiniMax开放平台则为企业和开发者提供API服务。

采(cai)访中,刘华从(cong)AI大模(mo)型公司的角度(du)出发(fa),谈(tan)到了多模(mo)态大模(mo)型应用过(guo)程中不断(duan)提高的算(suan)力成(cheng)本(ben)问(wen)题(ti)。

他说,以往的(de)大(da)模型(xing)处理的(de)是文本任(ren)(ren)务,现(xian)在的(de)大(da)模型(xing)处理的(de)是语音(yin)任(ren)(ren)务、视(shi)频任(ren)(ren)务;用token来计算的(de)话,一个小(xiao)视(shi)频的(de)tokens比一篇文章的(de)tokens高出(chu)太(tai)多。如果要让新(xin)的(de)技(ji)术(shu)落地、让更多的(de)企(qi)业(ye)或个人能(neng)够(gou)接(jie)受(shou)新(xin)技(ji)术(shu),就必须确保(bao)大(da)模型(xing)能(neng)够(gou)以非常有性(xing)价比的(de)方式(shi)处理大(da)规(gui)模的(de)输入(ru)或输出(chu)。

二、大集群并不等于大算力,要优化资源利用率

自MiniMax成立以来,腾讯云就与其(qi)建立了合作(zuo)关(guan)系,为其(qi)提供(gong)算力、网(wang)络等基础设施(shi)支持(chi)。田丰形容两家公司“是(shi)一起手(shou)牵手(shou)走(zou)到今天”,在大(da)模型的发展过程中,“一起去解决难题,是(shi)双(shuang)向(xiang)奔(ben)赴的一个过程”。

站在云服(fu)务厂商的视角,田(tian)丰分享了这(zhei)两三(san)年来自己对客(ke)户需求变化的观察。

他(ta)说,大模型(xing)公司客户早期(qi)可(ke)能(neng)需要(yao)的(de)是(shi)千卡(ka)(ka)集群(qun),现在可(ke)能(neng)都(dou)是(shi)要(yao)上万(wan)卡(ka)(ka),后续可(ke)能(neng)会到十万(wan)卡(ka)(ka),“这个规模对(dui)我们的(de)组网的(de)能(neng)力、集群(qun)的(de)运维,都(dou)是(shi)一个非常(chang)大的(de)、全(quan)新的(de)挑战,跟原来完全(quan)是(shi)不一样的(de)”。

田丰拿(na)“网(wang)络(luo)”举例(li)。他(ta)称(cheng),训(xun)(xun)练万亿(yi)参(can)数的(de)(de)(de)大(da)(da)模型(xing)(xing)(xing)时(shi),传统(tong)的(de)(de)(de)网(wang)络(luo)协议容易造(zao)成拥堵、高延时(shi)。在(zai)这个(ge)过程(cheng)中(zhong),0.1%的(de)(de)(de)丢(diu)包率都会导致(zhi)50%的(de)(de)(de)续(xu)训(xun)(xun)效率的(de)(de)(de)下降;中(zhong)断恢复之后,需要从(cong)上(shang)一(yi)个(ge)续(xu)训(xun)(xun)点继(ji)续(xu)训(xun)(xun)练模型(xing)(xing)(xing),这会给万亿(yi)规模的(de)(de)(de)模型(xing)(xing)(xing)训(xun)(xun)练造(zao)成非常大(da)(da)的(de)(de)(de)损失(shi)。

另(ling)外,田丰还提到,大(da)集群(qun)并(bing)不(bu)等于(yu)大(da)算力,算力不(bu)是靠简单地(di)“堆(dui)”出来的(de),而(er)是需(xu)要大(da)量优化和调整GPU资(zi)源的(de)利用(yong)率,以及网络(luo)传输通讯的(de)效率。

结语:大模型开启淘汰赛,技术最终要盈利去赚钱

整整两年时间,生成式AI走过通用基(ji)座大(da)模(mo)(mo)型(xing)的“百模(mo)(mo)大(da)战(zhan)”与(yu)“价格战(zhan)”,面临落(luo)地应(ying)用与(yu)商业化(hua)检验。多模(mo)(mo)态模(mo)(mo)型(xing)的研发和(he)优化(hua)依(yi)旧在紧锣密鼓地进行(xing),应(ying)用落(luo)地并(bing)成功跑出商业模(mo)(mo)式也不可或缺。

AI大(da)(da)模(mo)型(xing)行业或(huo)许已(yi)进入淘(tao)汰赛阶段(duan),算(suan)力、技术、产品(pin)都成为(wei)竞争(zheng)要素。中国(guo)大(da)(da)模(mo)型(xing)“洗牌年”,大(da)(da)模(mo)型(xing)公司和(he)云服(fu)务厂商们都在打(da)起精神。

可(ke)能(neng)就(jiu)像是(shi)田丰(feng)在采访中说的(de):“实践是(shi)检验(yan)AI的(de)唯一标(biao)准。AI大(da)模型是(shi)长跑,投(tou)资人和创业者都需要(yao)有信心(xin)和耐心(xin),炫(xuan)酷的(de)技术最(zui)终还是(shi)要(yao)落实到商业化本身,要(yao)盈利去赚钱。”