智东西(公众号:zhidxcom)
作者 | 程茜
编辑 | 漠影

生成式(shi)AI时代究竟该如(ru)何构建数据库?

智东西5月(yue)20日报道,刚刚过去的周六(liu),OceanBase 2025开(kai)发者大会上,我们找到了这(zhei)家(jia)数据(ju)库厂商的答案(an)——一体化数据(ju)底(di)座。

OceanBase CEO杨冰说:“一体(ti)化(hua)数据(ju)底座指的是(shi)希望通过(guo)一体(ti)化(hua)产品、一体(ti)化(hua)引擎,同时处理OLTP、OLAP以及AI的混合负载。”

他们想要最终解决的难(nan)题就是(shi)AI的大(da)爆发(fa)时(shi)代(dai),数据库(ku)应当如何更(geng)好地(di)(di)存储、处(chu)理数据,从而更(geng)好地(di)(di)适应新时(shi)代(dai)需(xu)要,谋求(qiu)更(geng)长(zhang)远发(fa)展。

当下,企(qi)业的数据存储与处(chu)理正面临前所未有的挑战。一(yi)(yi)方面,大模型训练、实时(shi)推理等场景产生的海量异构数据,要求存储系统具(ju)备极高的容量弹性(xing)与跨模态管理能(neng)力(li);另一(yi)(yi)方面,数据处(chu)理需兼顾(gu)事(shi)务处(chu)理的实时(shi)性(xing)、分析决(jue)策的高效性(xing)及AI任务的复(fu)杂计算需求。

然而(er),传统数(shu)据(ju)(ju)(ju)基(ji)础设(she)施与生(sheng)成式AI下的数(shu)据(ju)(ju)(ju)需求割裂,产(chan)业(ye)亟需能整合多模态(tai)数(shu)据(ju)(ju)(ju)处(chu)理(li)、海(hai)量数(shu)据(ju)(ju)(ju)处(chu)理(li)等特(te)征,并深(shen)度融合AI能力的新型数(shu)据(ju)(ju)(ju)底座。

在此背景下,国产(chan)(chan)数(shu)据(ju)库的(de)主(zhu)力玩家OceanBase,已经(jing)在数(shu)据(ju)库转型之路(lu)上率(lv)先突围:宣布(bu)全面拥抱AI,打造“Data×AI”核心能(neng)力、启动人才和组织体系(xi)升级,并围绕一(yi)体化数(shu)据(ju)底座为核心发布(bu)首款面向(xiang)AI的(de)应用产(chan)(chan)品PowerRAG。

AGI时代,数据库厂商如何破局

开发者大会同天,智东西等媒体与OceanBase CEO杨冰、CTO杨传辉进行了深入交流,试图探寻这家数(shu)据库主力厂商在AI时代的(de)核心竞(jing)争(zheng)力。

一、从Data Infra向Data×AI Infra跃迁,数据在AI时代的角色将如何重塑?

数(shu)据的特征会直(zhi)接影响(xiang)模型的性(xing)能、泛化能力和(he)应用效(xiao)果(guo),但伴(ban)随着AI的发展,数(shu)据衍生出(chu)一(yi)系列(lie)亟(ji)待突破的全新挑战(zhan)。蚂蚁集(ji)团CTO何(he)征宇(yu)提(ti)到了四大挑战(zhan)。

作为大模型训练(lian)基石的(de)互联网公开数据即将(jiang)枯(ku)竭,未来获取高质量数据的(de)成本将(jiang)逐步攀(pan)升。

严(yan)谨的行业数据稀缺且流动(dong)困(kun)难,存在三重特征(zheng):数字(zi)化进程滞后、数据质量要求(qiu)严(yan)苛、核心数字(zi)化知识(shi)沉淀(dian)不足(zu)。

AGI时代,数据库厂商如何破局

多(duo)模(mo)态(tai)数(shu)据需要更强处理能力。未(wei)来越来越多(duo)的数(shu)据需要包含视觉、触觉、本体感觉和音频等诸(zhu)多(duo)信(xin)息。

数据的质量(liang)(liang)评估(gu)难。评估(gu)的质量(liang)(liang)决定模型质量(liang)(liang),但现有(you)数据与模型质量(liang)(liang)评估(gu)方式(shi),难以指(zhi)导大(da)模型训练摆脱“训模如炼丹”的窘境(jing)。

对于(yu)数据的(de)重要性,何征宇一针见血(xue)指(zhi)出:“数据的(de)边(bian)界决定(ding)了大模型的(de)能力上限(xian),所有的(de)数据公(gong)司都将成为(wei)AI公(gong)司。”

与此同时,数(shu)据(ju)量(liang)(liang)的增长仍在突飞(fei)猛(meng)进。IDC预测到2028年,受(shou)生(sheng)成式(shi)AI等技术驱动,全球(qiu)新(xin)生(sheng)成数(shu)据(ju)量(liang)(liang)规(gui)模将达(da)到393.9ZB,其中企业(ye)数(shu)据(ju)规(gui)模和增速尤为凸显,全球(qiu)企业(ye)级数(shu)据(ju)的数(shu)据(ju)量(liang)(liang)较2023年整体增长在400%以上。

AGI时代,数据库厂商如何破局

可(ke)以看到,数(shu)(shu)据在AI时(shi)代的(de)(de)角色正(zheng)在被(bei)重塑。正(zheng)如(ru)(ru)杨冰所说,如(ru)(ru)今数(shu)(shu)据基础(chu)设(she)施(shi)不仅要实现“物理变化(hua)”,如(ru)(ru)支(zhi)(zhi)撑海量数(shu)(shu)据存(cun)储、可(ke)扩展性等突破存(cun)储、计(ji)算的(de)(de)瓶颈,还要发(fa)生“化(hua)学变化(hua)”,如(ru)(ru)支(zhi)(zhi)持(chi)知识的(de)(de)学习(xi)、获取(qu),支(zhi)(zhi)持(chi)应用的(de)(de)推理以及决策。

因此,AI正驱动数据(ju)基础设施Data Infra向“数据(ju)×AI”的(de)融合(he)架构Data×AI Infra跃迁(qian)。

在生成(cheng)式AI应用(yong)爆发之(zhi)际,传(chuan)统的数据基础(chu)设(she)施(shi)的转型显得更(geng)为(wei)急迫。IDC软件市场研究经理李(li)凌霄提到,数据基础(chu)设(she)施(shi)目前的负(fu)载割(ge)裂、云环(huan)境割(ge)裂、多模态(tai)割(ge)裂、技术债务(wu)正(zheng)阻碍生成(cheng)式AI落地。

传统TP+AP环境(jing)会造成长数据(ju)链条资源消(xiao)耗(hao)、负(fu)载需求,无法(fa)在(zai)生(sheng)成式AI场(chang)景下(xia)拥有实时(shi)支撑能(neng)力以及充分的(de)(de)计(ji)算资源;同(tong)时(shi)企业在(zai)不同(tong)云平台间的(de)(de)数据(ju)交互、加工、治理割裂;传统场(chang)景下(xia)专库专用的(de)(de)架构(gou)做异构(gou)数据(ju)间联合查(cha)询(xun)时(shi),会造成性能(neng)消(xiao)耗(hao)和响(xiang)应延迟;企业需要在(zai)生(sheng)成式AI时(shi)代,保持(chi)、延续其此前(qian)基础设施架构(gou)的(de)(de)完整(zheng)。

其中,2023年(nian)随着大模型发(fa)展而(er)爆发(fa)的向量数(shu)据库,曾(ceng)因擅长(zhang)处理非结构化(hua)数(shu)据被(bei)视为企业(ye)最大化(hua)发(fa)挥数(shu)据价值的关键(jian)工具,但如今其难以独立解决复杂业(ye)务问题的弊端(duan)愈发(fa)凸显。

诸多企业(ye)实现向量融(rong)合的方式(shi)是在(zai)现有数(shu)(shu)据基(ji)础设施之上融(rong)合向量插件,很少(shao)会(hui)选(xuan)择独(du)立(li)部署。杨传辉提到,向量数(shu)(shu)据库(ku)是一(yi)个临时态,因(yin)为用户在(zai)查询时往往会(hui)涉及向量、标量等混(hun)合数(shu)(shu)据,独(du)立(li)的向量数(shu)(shu)据库(ku)未来会(hui)被(bei)替代。

在大模型落地行(xing)至关键(jian)机遇期,数(shu)据和大模型能力如何融(rong)合,成为(wei)数(shu)据库(ku)领域(yu)企业决(jue)胜(sheng)AI时代的(de)核心竞争(zheng)力分水岭。深耕(geng)数(shu)据库(ku)领域(yu)的(de)OceanBase已(yi)经先行(xing)一步,开始探索构建适(shi)配AI时代的(de)数(shu)据底座新范式。

二、两大思路加速一体化数据库转型,首发AI产品PowerRAG

拥抱AI已经成为千行百业共识,一贯秉持稳扎稳打理念(nian)的OceanBase于今年4月底,宣布全面进入(ru)AI时代。

彼时,OceanBase CEO杨冰(bing)发布(bu)全(quan)员信,宣(xuan)布(bu)要打造“Data×AI”核心能力,加速打造AI时代数据(ju)底座(zuo)。

具(ju)体(ti)来看,OceanBase的(de)(de)Data×AI战(zhan)略的(de)(de)关键(jian)是要实现数(shu)据与AI的(de)(de)融合,而一(yi)体(ti)化(hua)数(shu)据底座就是一(yi)体(ti)化(hua)数(shu)据库的(de)(de)延伸,其核心仍然是能(neng)不能(neng)做好数(shu)据处理。

AGI时代,数据库厂商如何破局

其(qi)背后(hou)的考量一直是(shi)以用(yong)户需求(qiu)(qiu)出发。AI时代(dai)对于数据(ju)处理(li)的两(liang)个显著(zhu)需求(qiu)(qiu)是(shi):高质量、海量数据(ju)以及混合负(fu)载(zai)。杨传(chuan)辉说,AI应用(yong)出现(xian)使得工作负(fu)载(zai)边界(jie)逐渐模糊,其(qi)无法严格区分向量、标量数据(ju),开发者的需求(qiu)(qiu)也(ye)随(sui)之(zhi)变化(hua):他们(men)希望(wang)在一套(tao)引擎里直接通过一条SQL处理(li)所有工作负(fu)载(zai)。

这恰恰是OceanBase的核心优(you)势所在。OceanBase除了能(neng)(neng)够支持(chi)OLTP和OLAP传统数(shu)据(ju)(ju)(ju)库(ku)工(gong)(gong)作负(fu)(fu)载,还能(neng)(neng)支持(chi)AI领域工(gong)(gong)作负(fu)(fu)载,如半结构化(hua)数(shu)据(ju)(ju)(ju)JSON处理、向量(liang)数(shu)据(ju)(ju)(ju)库(ku)、混合(he)检索以及RAG能(neng)(neng)力等。

从(cong)宏观角度来(lai)看,这些技术积淀为(wei)数据与(yu)模型的(de)一体化融合提供了基础(chu),成为(wei)大(da)模型落地产生价值(zhi)的(de)关键所在。

AGI时代,数据库厂商如何破局

还是从需求出发,数(shu)据和模(mo)型实现(xian)融合需要解决的有两大问题(ti):数(shu)据处理和模(mo)型本身的准(zhun)确性(xing)、成本、行业适(shi)配性(xing)等。在此基础上,OceanBase进一(yi)步将打造(zao)“Data×AI”核心能力细化(hua)为两方(fang)面工作(zuo):

一方面是要(yao)将(jiang)数据(ju)(ju)融入(ru)模型里,希望通(tong)过提高(gao)数据(ju)(ju)质量(liang)、结构化程度,提升模型准确度、推理(li)效(xiao)率(lv),让(rang)小模型也能有大效(xiao)果(guo),同时降低推理(li)成本;

另一(yi)(yi)方面是(shi)希望(wang)将AI原生(sheng)集成(cheng)到数据(ju)库中,杨传辉(hui)阐(chan)述说这有两(liang)种融合方式(shi),一(yi)(yi)是(shi)较为直观(guan)的(de)在数据(ju)库里通过类似(si)AI function方式(shi)直接集成(cheng)大模(mo)型(xing)能(neng)力,另一(yi)(yi)种是(shi)实(shi)现SQL+AI的(de)混合计算,分析、问(wen)答一(yi)(yi)体完成(cheng),这样的(de)融合需(xu)要较长的(de)时间(jian)来(lai)实(shi)现。

关于一体(ti)化(hua)数据底座布(bu)局的考量,OceanBase在产品(pin)层面(mian)首发了(le)面(mian)向AI的应用产品(pin)PowerRAG,为开发者打(da)造AI驱(qu)动的开箱即用RAG服务(wu)。

杨(yang)传辉说(shuo),他(ta)们首要(yao)解决的是(shi)“能(neng)用”问题,通过RAG方式提升大模型准确率,再(zai)逐(zhu)步从“可(ke)用”推进到“好用”,使(shi)得AI应用走(zou)向(xiang)实际生产场(chang)景。

AGI时代,数据库厂商如何破局

传统的搭建RAG服务方案(an)存在开(kai)(kai)发周期长、维护成(cheng)本高、灰箱调试困(kun)难、性能难以优化等问题(ti)。打(da)通应(ying)用(yong)开(kai)(kai)发数据层(ceng)、平台(tai)层(ceng)、接口(kou)层(ceng)与应(ying)用(yong)层(ceng)全流程的PowerRAG,可(ke)以提供Document(文档)和 Chat(对话(hua)(hua))两个(ge)核(he)心API接口(kou),使得用(yong)户可(ke)以快速实现(xian)文档知识库(ku)、智能对话(hua)(hua)、图像比对、数据分(fen)析等多种AI应(ying)用(yong)场(chang)景(jing)的开(kai)(kai)发。

这只是OceanBase在应用(yong)层(ceng)面(mian)探索(suo)的第(di)一步。未(wei)来,OceanBase将(jiang)逐(zhu)渐形成从算力、基(ji)础(chu)设施,到平台层(ceng)、应用(yong)层(ceng)、交付形态的一体化数据底(di)座全方位布(bu)局。

三、15年积淀,企业级分布式数据库能力已打下基础

这个(ge)势头(tou)正猛的国产数据库(ku)主力(li),经过(guo)15年的磨砺(li),已经淬炼出独特(te)的Data×AI Infra方(fang)法论,构建起(qi)智能时代的核心竞争力(li)。

成立自2010年的OceanBase,是蚂蚁集团100%自研的原生(sheng)分布式数据(ju)库,目(mu)前支(zhi)(zhi)持支(zhi)(zhi)付(fu)宝全部核心账务(wu)、核心支(zhi)(zhi)付(fu)系统,连续十余年稳定支(zhi)(zhi)撑双十一(yi)的高并发场景。

如(ru)今OceanBase取得(de)的(de)成绩可(ke)以(yi)用(yong)这几个数(shu)(shu)据(ju)(ju)(ju)加以(yi)概括:IDC发布的(de)《2024年上半年中国分布式事(shi)务(wu)数(shu)(shu)据(ju)(ju)(ju)库(ku)软件市(shi)(shi)场(chang)(chang)跟踪报告》显示,OceanBase占据(ju)(ju)(ju)独立数(shu)(shu)据(ju)(ju)(ju)库(ku)市(shi)(shi)场(chang)(chang)份额第(di)一、市(shi)(shi)场(chang)(chang)整体第(di)四;杨冰透露,目前OceanBase社(she)区(qu)已(yi)经拥有超2.5万名开(kai)发者,突(tu)破100万下载(zai)次数(shu)(shu)、可(ke)统计的(de)开(kai)源集群数(shu)(shu)超5万个。

AGI时代,数据库厂商如何破局

OceanBase已通过横向扩展的(de)技(ji)术底(di)座构建(jian)起(qi)符合AI时代技(ji)术能力的(de)技(ji)术基础,同时以纵向深化的(de)高性能数(shu)据处(chu)理基准,为打(da)造(zao)AI时代的(de)一体化数(shu)据底(di)座积势。

从技术底座的布局看(kan),OceanBase最基(ji)(ji)本的企(qi)业级分布式数据(ju)库(ku)能力,为AI时(shi)代(dai)的海量数据(ju)处理分析打下基(ji)(ji)础。同时(shi),其同步推进向量性能、混合检(jian)索(suo)等支持AI应用落地的核心基(ji)(ji)础设施发展(zhan)。

从性(xing)(xing)能表现看,OceanBase的(de)性(xing)(xing)能已经达(da)到(dao)开源向量(liang)数据库(ku)业(ye)界领(ling)先水平。杨传(chuan)辉现场(chang)演示(shi)对(dui)比了(le)OceanBase与(yu)业(ye)界主(zhu)流(liu)的(de)3款开源向量(liang)数据库(ku),结(jie)果显示(shi),OceanBase的(de)跑分超过其他三大(da)业(ye)界主(zhu)流(liu)开源向量(liang)数据库(ku)。

AGI时代,数据库厂商如何破局

此外,在处理海(hai)量数据方面,OceanBase引入(ru)BQ量化算(suan)法,OceanBase的(de)(de)测试结果显(xian)示,在同等召回率与性能的(de)(de)情况(kuang)下,引入(ru)该算(suan)法(HNSW+BQ)能够实现内存成本较HNSW降(jiang)低 95%。

为(wei)帮助用户降低AI场景中常见的(de)半结构化数(shu)据(ju)(ju)存储(chu)成本(ben),OceanBase引入针对JSON半结构化数(shu)据(ju)(ju)的(de)压(ya)缩(suo)能(neng)力。经OceanBase测试(shi), OceanBase在TPC-H 10G数(shu)据(ju)(ju)集上JSON压(ya)缩(suo)比可达MongoDB的(de)3倍(bei)。

同时(shi),在技(ji)术(shu)布(bu)局的前瞻构建与用户需求的精准洞(dong)察(cha)之外,OceanBase宣布(bu)了全维度拥抱AI的战略决(jue)断,并且即刻启动(dong)组织效能革新与人才(cai)结构升级的双(shuang)轮驱动(dong)。

OceanBase CTO杨传(chuan)辉担任AI战略(lve)一(yi)号位,全面(mian)统(tong)筹AI战略(lve)制定和技术产(chan)品(pin)落地,同时(shi)(shi)成(cheng)立AI平台(tai)与(yu)应用部(bu)、AI引擎组等(deng),将形(xing)成(cheng)AI时(shi)(shi)代(dai)从(cong)一(yi)体化(hua)存储到(dao)一(yi)体化(hua)计算的全方位布局。

全面进(jin)入AI时代背后,是OceanBase打造AI时代一(yi)体化数据底(di)座的技术(shu)底(di)气与信心。

结语:OceanBase全面拥抱AI,数据库转型已先行一步

随着AI发展,数(shu)据(ju)库(ku)在智能生态(tai)中承载(zai)的(de)(de)能力(li)正经历颠覆性(xing)变(bian)革,从传统的(de)(de)数(shu)据(ju)存储容器蜕变(bian)为(wei)驱动AI全流程(cheng)的(de)(de)智能引擎。

数(shu)据(ju)(ju)库企业(ye)正以(yi)主动变革的姿态,将技术迭代转化为AI时代的增长引擎。OceanBase希望由“数(shu)据(ju)(ju)库”向“数(shu)据(ju)(ju)底座”演进,形成(cheng)全方(fang)位、一体化处(chu)理这些问题的解(jie)决(jue)方(fang)案,为AI时代的企业(ye)解(jie)决(jue)数(shu)据(ju)(ju)处(chu)理难(nan)题。