智东西(公众号:zhidxcom)
作者 | 徐珊
编辑 | 云鹏

智东(dong)西11月16日报道,昨日,腾(teng)讯在其技(ji)术开(kai)放日举(ju)办(ban)了AGI时代的(de)(de)“数据枢(shu)纽”腾(teng)讯云向(xiang)(xiang)量数据库(ku)技(ji)术&产(chan)业峰会。在此次大(da)会上,腾(teng)讯云联合中(zhong)国信(xin)通院联合发(fa)布(bu)向(xiang)(xiang)量数据库(ku)标(biao)(biao)准。腾(teng)讯云向(xiang)(xiang)量数据库(ku)成为首家通过信(xin)通院的(de)(de)向(xiang)(xiang)量库(ku)标(biao)(biao)准测试的(de)(de)向(xiang)(xiang)量数据库(ku),最高支持千亿级向(xiang)(xiang)量规模和500万QPS峰值能力。

向(xiang)量(liang)是(shi)(shi)(shi)AI理解世(shi)界的(de)通用数(shu)(shu)(shu)(shu)据(ju)形势,是(shi)(shi)(shi)多模态(tai)数(shu)(shu)(shu)(shu)据(ju)库的(de)压缩。向(xiang)量(liang)数(shu)(shu)(shu)(shu)据(ju)则是(shi)(shi)(shi)由数(shu)(shu)(shu)(shu)值向(xiang)量(liang)组成的(de)数(shu)(shu)(shu)(shu)据(ju)集合,向(xiang)量(liang)数(shu)(shu)(shu)(shu)据(ju)库是(shi)(shi)(shi)以向(xiang)量(liang)嵌入式(shi)存储和管(guan)理向(xiang)量(liang)数(shu)(shu)(shu)(shu)据(ju)的(de)数(shu)(shu)(shu)(shu)据(ju)库,其主要的(de)来自于对文本、语(yu)音、图像、视屏(ping)等非结构化数(shu)(shu)(shu)(shu)据(ju),提供向(xiang)量(liang)化的(de)功能。

“向(xiang)量数(shu)(shu)据(ju)库不(bu)仅是支撑大模型的重要(yao)基础(chu)设施(shi),也正在成为企(qi)业以(yi)数(shu)(shu)据(ju)驱动打造未(wei)来竞争力的重要(yao)一环。”腾讯集团高(gao)级执行副总裁、腾讯云与(yu)智慧产业事业群CEO汤道(dao)生说(shuo)道(dao)。他(ta)认(ren)为,目(mu)前企(qi)业数(shu)(shu)据(ju)库内80%的数(shu)(shu)据(ju)都(dou)是非(fei)结构化的数(shu)(shu)据(ju),向(xiang)量数(shu)(shu)据(ju)可以(yi)让AI直接解(jie)读语音、视频等(deng)多模态的数(shu)(shu)据(ju)。

据(ju)腾讯(xun)(xun)云数据(ju)库副总(zong)经理(li)罗云介(jie)绍,目前腾讯(xun)(xun)云向量(liang)数据(ju)库已经累积(ji)服(fu)务(wu)了(le)腾讯(xun)(xun)内部40多(duo)个业务(wu),日请求(qiu)量(liang)达(da)1600亿(yi)次,服(fu)务(wu)了(le)包括博世、销售易、搜狐(hu)、好未(wei)来、链家等在内的超过1000家外部客户。

此(ci)外,腾(teng)(teng)讯云向量数据库和百川智能联合发(fa)布的“AGI启(qi)航计划”也正(zheng)式启(qi)动,向量数据库免(mian)费实例及Baichuan2 400万(wan)免(mian)费Tokens将限量开放领取,助力用户快速搭建RAG应用。同时,腾(teng)(teng)讯云还与硬(ying)件厂商、大模(mo)型厂商、行业代(dai)表(biao)等(deng)联合成立了(le)“AGI技术(shu)生态联盟”。

国内首个向量数据库标准亮相,日处理1600亿请求,对话腾讯云向量数据库高管罗云

一、腾讯集团高级执行副总裁汤道生:向量数据库比传统数据库的检索规模提升数百倍

“向(xiang)量数(shu)据(ju)库(ku)可以成为(wei)大(da)模(mo)型的(de)外部知识库(ku),给大(da)模(mo)型输入(ru)最新(xin),最全面,最有(you)(you)效的(de)信息(xi),让(rang)大(da)模(mo)型拥有(you)(you)长(zhang)记忆,避免(mian)聊天时的(de)断线,是大(da)模(mo)型的(de)最佳(jia)拍(pai)档。”汤道(dao)生通过视频说(shuo)道(dao)。他认为(wei),AI驱(qu)动(dong)产(chan)业数(shu)据(ju)变动(dong)的(de)时代正在(zai)到来(lai),向(xiang)量数(shu)据(ju)库(ku)正在(zai)成为(wei)数(shu)据(ju)的(de)枢纽。

国内首个向量数据库标准亮相,日处理1600亿请求,对话腾讯云向量数据库高管罗云

据他介绍(shao),早在2019年(nian),腾讯(xun)云向量数据库已经接入(ru)了QQ浏(liu)览器等多业务场景,每天(tian)处理超(chao)过(guo)1600亿次的请求。在向量检(jian)索帮助下,QQ浏(liu)览器检(jian)索成本38%,QQ音乐(le)的技(ji)术(shu)支持(chi)也较大提升(sheng)。

今年8月,腾(teng)讯云正式(shi)推出(chu)向(xiang)量数(shu)据库(ku),如今,腾(teng)讯云向(xiang)量数(shu)据库(ku)也成为首个通(tong)过(guo)信通(tong)院标(biao)准测(ce)试(shi)的(de)厂商,该向(xiang)量库(ku)拥有(you)千亿级(ji)的(de)向(xiang)量规模,比传统数(shu)据库(ku)的(de)检索(suo)规模提升(sheng)数(shu)百(bai)倍。

汤道(dao)生认(ren)为,数(shu)据(ju)在大(da)模型的(de)(de)向量(liang)数(shu)据(ju)库(ku)实现了智能(neng)(neng)计算、智能(neng)(neng)存(cun)储,大(da)幅降低客(ke)户的(de)(de)应(ying)用(yong)(yong)门槛和成本。不少(shao)用(yong)(yong)户基于腾讯云(yun)向量(liang)数(shu)据(ju)库(ku)打(da)造相应(ying)的(de)(de)应(ying)用(yong)(yong),让用(yong)(yong)户在模糊(hu)的(de)(de)提示词下,也可以准确的(de)(de)找到(dao)答案,帮助客(ke)户节省80%的(de)(de)人工客(ke)服成本。

二、腾讯云副总裁陈平:国内拥有130个大模型,向量数据库是AGI时代大模型的最佳拍档

“向量数据库已经被业(ye)内公认(ren)大(da)模型时代(dai)的(de)(de)数据枢纽,因此其建设也尤为重要。”腾讯云副总裁陈平谈到在新(xin)的(de)(de)时代(dai),AI行业(ye)将会改变千行百业(ye),传(chuan)统行业(ye)需要及时调整自己(ji)的(de)(de)生产方式,以跟(gen)上新(xin)的(de)(de)时代(dai)。

国内首个向量数据库标准亮相,日处理1600亿请求,对话腾讯云向量数据库高管罗云

同时,在新兴(xing)数(shu)据(ju)(ju)技(ji)术集成上(shang),移动互(hu)联(lian)网、泛互(hu)联(lian)网等(deng)数(shu)据(ju)(ju)正呈现指数(shu)级成长,传统处理数(shu)据(ju)(ju)的能力(li)带来压力(li),更(geng)(geng)高效的数(shu)据(ju)(ju)存储(chu)需(xu)要更(geng)(geng)智能存储(chu)、梳理等(deng)。他(ta)认为,向量数(shu)据(ju)(ju)库是AGI时代大模型的最佳(jia)拍档。

企业(ye)需要(yao)(yao)(yao)将(jiang)(jiang)数(shu)据采集(ji)和存储,更多(duo)利用(yong)大模型的(de)数(shu)据和存储。在数(shu)据采集(ji)层(ceng),腾(teng)讯计(ji)划部署各种AI芯片,提(ti)供稳定的(de)服务性能,为各种各样的(de)AI厂商提(ti)供服务。在模型层(ceng),据他统计(ji),中国(guo)已经有130个(ge)大模型,接(jie)下来需要(yao)(yao)(yao)厂商将(jiang)(jiang)大模型沉淀(dian)到各个(ge)产业(ye)中。大模型的(de)应用(yong)并不完全看算力(li),也看生态合(he)作。而应用(yong)层(ceng),AGI应用(yong)需要(yao)(yao)(yao)投入到真实(shi)环节(jie),也是其实(shi)现价(jia)值最(zui)重(zhong)要(yao)(yao)(yao)的(de)一环。

在2018年(nian)左右,由于自身业(ye)(ye)务的需要,腾(teng)讯云就已(yi)经(jing)开(kai)始打(da)(da)磨向(xiang)(xiang)量数据库,如今已(yi)经(jing)成为(wei)较为(wei)成熟(shu)体系。“腾(teng)讯云积极(ji)参与向(xiang)(xiang)量数据库相关标准制(zhi)定,并通(tong)过(guo)搭建AGI技术生态联(lian)盟,与上(shang)下游伙伴一道,加强(qiang)产业(ye)(ye)合作(zuo),打(da)(da)造更多(duo)的行(xing)业(ye)(ye)解(jie)决方案,加速大模(mo)型(xing)落地。”陈平说道。

三、中国信通院人工智能创新中心负责人魏凯:国内数据库仍以关系型为主

中(zhong)国数(shu)(shu)据(ju)(ju)库(ku)(ku)产(chan)业(ye)开始于(yu)20世纪末(mo),并在2013年后迎来新的(de)(de)(de)繁荣(rong)发展,在2020年后,中(zhong)国数(shu)(shu)据(ju)(ju)库(ku)(ku)迎来的(de)(de)(de)真(zhen)正的(de)(de)(de)爆发。“数(shu)(shu)据(ju)(ju)库(ku)(ku)是一个生命力比较顽强的(de)(de)(de)产(chan)业(ye),几乎每几年都有一个热点(dian)。在全球数(shu)(shu)据(ju)(ju)库(ku)(ku)第二(er)波爆发阶段(duan),中(zhong)国赶上(shang)了(le)浪潮(chao)。”中(zhong)国信通院人工智(zhi)能创新中(zhong)心(xin)负责人、云计(ji)算与大数(shu)(shu)据(ju)(ju)研(yan)究所副所长魏凯(kai)说道。

数据库上云成为当今产业行业重要的(de)趋势,2022年,国(guo)内的(de)公有(you)云市场首次超过(guo)了私(si)有(you)云,市场份额超过(guo)一(yi)半。

向(xiang)(xiang)(xiang)量(liang)(liang)数(shu)据(ju)(ju)(ju)库(ku)是(shi)存储检索、多维度向(xiang)(xiang)(xiang)量(liang)(liang)最关键的(de)数(shu)据(ju)(ju)(ju)库(ku)。向(xiang)(xiang)(xiang)量(liang)(liang)数(shu)据(ju)(ju)(ju)库(ku)与(yu)大模型(xing)的(de)结合,成为其当下的(de)产业热门。向(xiang)(xiang)(xiang)量(liang)(liang)数(shu)据(ju)(ju)(ju)库(ku)与(yu)传统数(shu)据(ju)(ju)(ju)库(ku)会协同(tong)发展、相互补充。向(xiang)(xiang)(xiang)量(liang)(liang)数(shu)据(ju)(ju)(ju)库(ku)将会通过数(shu)据(ju)(ju)(ju)的(de)向(xiang)(xiang)(xiang)量(liang)(liang)化来满足(zu)特定需求,尤其是(shi)传统关系型(xing)数(shu)据(ju)(ju)(ju)库(ku)难(nan)以(yi)处理(li)的(de)大规模数(shu)据(ju)(ju)(ju)。

国内首个向量数据库标准亮相,日处理1600亿请求,对话腾讯云向量数据库高管罗云

目前(qian),全(quan)球数(shu)(shu)据(ju)(ju)库(ku)(ku)产品数(shu)(shu)量整体(ti)分布呈现以非关系(xi)(xi)型数(shu)(shu)据(ju)(ju)为主。但国(guo)(guo)内却出现关系(xi)(xi)型数(shu)(shu)据(ju)(ju)库(ku)(ku)的(de)发展(zhan)超过非关系(xi)(xi)型数(shu)(shu)据(ju)(ju)库(ku)(ku)的(de)现象。从创新看(kan),非关系(xi)(xi)型数(shu)(shu)据(ju)(ju)是热点(dian),我(wo)国(guo)(guo)创新实(shi)力不(bu)断增(zeng)强。而(er)从标(biao)准(zhun)上看(kan),行业组(zu)织(zhi)正逐步(bu)推(tui)动我(wo)国(guo)(guo)标(biao)准(zhun)体(ti)系(xi)(xi)完善。从模(mo)式来(lai)看(kan),开(kai)源模(mo)式在(zai)全(quan)球范围(wei)内发展(zhan)势头较猛,目前(qian),我(wo)国(guo)(guo)国(guo)(guo)内的(de)开(kai)源数(shu)(shu)据(ju)(ju)库(ku)(ku)共有42款,开(kai)源数(shu)(shu)据(ju)(ju)库(ku)(ku)中69%为关系(xi)(xi)型数(shu)(shu)据(ju)(ju)库(ku)(ku)。

他提到目前向量(liang)数据库(ku)的核(he)心技(ji)(ji)术有(you)Embedding技(ji)(ji)术、向量(liang)索引(yin)技(ji)(ji)术、分布式系统架构、硬件加速技(ji)(ji)术等。向量(liang)数据库(ku)可(ke)以在文本、图像、视频(pin)、生(sheng)物制药等多场景中,发挥其创造性(xing),提供丰富(fu)的应用。

四、对话腾讯云向量数据库负责人罗云:智能化数据平台的数据要可流通、可对话

随着AI的发展,整(zheng)个(ge)计算机科学行业的底(di)层基础(chu)设(she)施将会构(gou)建全新的方式。

“AGI时(shi)代大模(mo)型是(shi)提供算(suan)(suan)力、调度(du)的(de)智能平(ping)台(tai),向量数据(ju)库(ku)就是(shi)这个智能化的(de)数据(ju)的(de)调度(du)平(ping)台(tai)的(de)中枢”腾(teng)讯(xun)云创始团队成员、腾(teng)讯(xun)云数据(ju)库(ku)副总经理兼向量数据(ju)库(ku)负责人(ren)(ren)罗(luo)云认为,大模(mo)型的(de)本质(zhi)是(shi)带有(you)智能计(ji)算(suan)(suan)的(de)计(ji)算(suan)(suan)平(ping)台(tai),将(jiang)会将(jiang)人(ren)(ren)们所接(jie)触(chu)(chu)编程语言(yan)才可以(yi)触(chu)(chu)达的(de)计(ji)算(suan)(suan)体,转换成人(ren)(ren)们自然(ran)语言(yan)就可以(yi)接(jie)触(chu)(chu)的(de)计(ji)算(suan)(suan)体。

他认(ren)为(wei)AGI时代,智能(neng)化(hua)数(shu)(shu)据平(ping)台将会(hui)存在两大特点(dian),第一、底层数(shu)(shu)据化(hua)数(shu)(shu)据将要(yao)可以通过(guo)智能(neng)化(hua)的(de)方式流通;第二则是(shi),能(neng)够(gou)和数(shu)(shu)据库对话。因此,在AGI时代,向量数(shu)(shu)据库是(shi)数(shu)(shu)据的(de)中(zhong)枢。通过(guo)向量这样中(zhong)间(jian)模式,将会(hui)磨平(ping)了数(shu)(shu)据之间(jian)的(de)差异。

在(zai)会后(hou)的(de)(de)(de)(de)(de)(de)(de)采访环节(jie),罗云提(ti)到向(xiang)量(liang)是(shi)(shi)一种通用的(de)(de)(de)(de)(de)(de)(de)人(ren)工智能(neng)(neng)背后(hou)的(de)(de)(de)(de)(de)(de)(de)数(shu)(shu)(shu)(shu)据(ju)(ju)格式,它(ta)可能(neng)(neng)是(shi)(shi)需要(yao)桥接关键(jian)数(shu)(shu)(shu)(shu)据(ju)(ju)库(ku)、非关键(jian)数(shu)(shu)(shu)(shu)据(ju)(ju)库(ku)、对象存(cun)储、文件存(cun)储所(suo)有(you)的(de)(de)(de)(de)(de)(de)(de)各(ge)式各(ge)样结构的(de)(de)(de)(de)(de)(de)(de)数(shu)(shu)(shu)(shu)据(ju)(ju),把这些(xie)数(shu)(shu)(shu)(shu)据(ju)(ju)集中化(hua)放在(zai)一个数(shu)(shu)(shu)(shu)据(ju)(ju)管(guan)理(li)平台上。而传(chuan)统的(de)(de)(de)(de)(de)(de)(de)插件式向(xiang)量(liang)数(shu)(shu)(shu)(shu)据(ju)(ju)库(ku)相比,很(hen)难让(rang)某一个数(shu)(shu)(shu)(shu)据(ju)(ju)库(ku)的(de)(de)(de)(de)(de)(de)(de)插件支持到其他(ta)的(de)(de)(de)(de)(de)(de)(de)格式。“向(xiang)量(liang)数(shu)(shu)(shu)(shu)据(ju)(ju)库(ku)会成(cheng)为(wei)智能(neng)(neng)化(hua)AI的(de)(de)(de)(de)(de)(de)(de)一个索(suo)引层(ceng),它(ta)会把底层(ceng)所(suo)有(you)的(de)(de)(de)(de)(de)(de)(de)数(shu)(shu)(shu)(shu)据(ju)(ju)都智能(neng)(neng)化(hua)的(de)(de)(de)(de)(de)(de)(de)管(guan)理(li)起来,让(rang)人(ren)类通过(guo)自然语言,通过(guo)向(xiang)量(liang)去做交互(hu)。”他(ta)补(bu)充道(dao)。

国内首个向量数据库标准亮相,日处理1600亿请求,对话腾讯云向量数据库高管罗云▲中间为腾讯云创始团(tuan)队成员、腾讯云数据(ju)库副(fu)总经(jing)理兼向量(liang)数据(ju)库负责人罗云

AGI时代的(de)数(shu)据(ju)中枢及既(ji)要有(you)传统(tong)数(shu)据(ju)路(lu)的(de)企业(ye)级能(neng)(neng)力,更(geng)需要智能(neng)(neng)化(hua)(hua)升级。向量数(shu)据(ju)库(ku)需要在可(ke)(ke)用性、分布式(shi)、性能(neng)(neng)、可(ke)(ke)靠性等六大能(neng)(neng)力方面,拥有(you)新的(de)要求(qiu),实现(xian)计算智能(neng)(neng)化(hua)(hua)、存储智能(neng)(neng)化(hua)(hua)、接口智能(neng)(neng)化(hua)(hua)。

为(wei)了加(jia)速向(xiang)量数(shu)据(ju)(ju)库(ku)在企业的大规模应(ying)用,腾讯(xun)云还推出了国内“首个”端(duan)到(dao)端(duan)的向(xiang)量数(shu)据(ju)(ju)库(ku)解决方案,通(tong)过(guo)文本智(zhi)能化分割、选择向(xiang)量化模型、帮(bang)助客户(hu)建立索引,再经智(zhi)能化排序实现端(duan)到(dao)端(duan)的数(shu)据(ju)(ju)接(jie)入(ru)体验。将端(duan)到(dao)端(duan)召回率提(ti)高(gao)30%,缩短(duan)数(shu)据(ju)(ju)接(jie)入(ru)AI的时(shi)间。

现阶(jie)段,腾讯(xun)云已(yi)经接(jie)入(ru)(ru)了(le)百余项项目(mu),同时,腾讯(xun)已(yi)经外部接(jie)入(ru)(ru)了(le)千(qian)余家企(qi)业。例如,在(zai)SaaS领(ling)域,帮助企(qi)业客户快速构建私域知识库、智(zhi)能(neng)客服系统;在(zai)电商行(xing)(xing)业,使用向(xiang)量数据库来(lai)提(ti)升推荐、搜索、广(guang)(guang)告(gao)业务的推荐效果;在(zai)出行(xing)(xing)行(xing)(xing)业,使用向(xiang)量数据库来(lai)加速自动驾驶模型(xing)训练(lian),此(ci)外,在(zai)教育行(xing)(xing)业以(yi)及文(wen)创等行(xing)(xing)业也有广(guang)(guang)泛应(ying)用。

在(zai)(zai)产(chan)业(ye)创新方向(xiang)上,他提到不少在(zai)(zai)向(xiang)量数据(ju)库(ku)厂商发(fa)力的(de)(de)点集中在(zai)(zai)在(zai)(zai)成本层的(de)(de)一(yi)些调(diao)优,且想要去做(zuo)AI Native,AI原生的(de)(de)把(ba)智能(neng)化的(de)(de)东(dong)西做(zuo)成一(yi)站式的(de)(de)向(xiang)量数据(ju)库(ku)。客户在(zai)(zai)向(xiang)量数据(ju)库(ku)的(de)(de)采(cai)购方面也(ye)并未卡在(zai)(zai)成本环节,更多在(zai)(zai)思考怎么样把(ba)自己的(de)(de)行业(ye)know-how和(he)AI的(de)(de)整个技术站打通(tong)起来(lai)。

对于向量数据库的(de)(de)(de)版本(ben)迭代(dai)节(jie)(jie)奏,罗云计划(hua)在未来的(de)(de)(de)一年时间内(nei)可能会(hui)把向量数据库升(sheng)级的(de)(de)(de)节(jie)(jie)奏控制在三(san)个(ge)月(yue)(yue)到六个(ge)月(yue)(yue)会(hui)有一个(ge)大的(de)(de)(de)版本(ben),再往后会(hui)随着AI的(de)(de)(de)进展(zhan)再去看(kan)。

结语:腾讯云加速向量数据库大规模应用

向量数据库正在成为当下(xia)大模(mo)型热潮中底层技术突破重点。通(tong)过(guo)向量的(de)方(fang)式存储(chu)各式各样的(de)数据,能够让大模(mo)型更(geng)快(kuai)、更(geng)自然的(de)理解相应的(de)数据内(nei)容,从而给(ji)出更(geng)准确、合(he)适的(de)内(nei)容,帮助企业(ye)提高生产效率(lv)。

目前,我国的数据库正呈多样、丰富化的组合方式。腾讯云和信通院一起联合50多家企业(ye)共同发(fa)布了国内首个向(xiang)量数(shu)据(ju)库(ku)标(biao)准,推(tui)进向(xiang)量数(shu)据(ju)库(ku)及大模(mo)型相关产(chan)业(ye)走(zou)向(xiang)大规(gui)模(mo)应用。