智东西(公众号:zhidxcom)
编译 | 金碧辉
编辑 | 程茜

智东(dong)西(xi)5月28日消息,据科技(ji)媒体The Decoder 5月26日报(bao)道,当天,谷歌(ge)正式发布开源大模(mo)型(xing)评测框(kuang)架LMEval,支持对GPT-4o、Claude 3.7 Sonnet、Gemini 2.0 Flash、Llama-3.1-405B等主(zhu)流模(mo)型(xing)进行多(duo)模(mo)态能(neng)力标准化评估。

LMEval基于LiteLLM框(kuang)架(jia)(能(neng)让开发者通(tong)过(guo)统一API便(bian)捷调用GPT、Claude、Llama等上百款(kuan)大(da)模型(xing),并(bing)(bing)支持流(liu)式响应、批量推理及成本(ben)监控等功能(neng)的(de)开源框(kuang)架(jia))打通(tong)谷歌、OpenAI、Anthropic、Ollama和Hugging Face五大(da)厂商API接口,首次实现文本(ben)、图像、代码三类任(ren)务的(de)一站式评(ping)测,并(bing)(bing)通(tong)过(guo)增量评(ping)估技术(shu)减(jian)少80%重复测试算力消耗。

LMEval的源代码和示例笔记本已(yi)经(jing)在GitHub上(shang)公开,供(gong)广大开发者使用(yong)和研究。

地址:

一、跨平台互通,采用增量评估+多线程并行计算技术,测试效率提升5倍

LMEval基(ji)于LiteLLM框架,将谷歌、OpenAI、Anthropic、Ollama、Hugging Face的API接(jie)口标准化,开发者无需针对不(bu)同平台重写测试代(dai)码。

同时(shi),科技媒体The Decoder援引谷歌官方(fang)说(shuo)道,LMEval系统采(cai)用(yong)增量评估技术,配(pei)合多线程并行计算,能节省(sheng)80%算力,原(yuan)本8小(xiao)时(shi)的(de)测(ce)试流程可(ke)压缩至1.5小(xiao)时(shi)。

在评估场景层面,LMEval突(tu)破了单一文本(ben)问答的局(ju)限,将图像理解(jie)、代码生(sheng)成等场景纳(na)入评测(ce)范畴,满足多领域(yu)对大模(mo)型能力(li)评测(ce)的需求。

在题型(xing)方面,LMEval提供了(le)是非判断(duan)、多选问答、开放式生成等多达12种(zhong)题型(xing),为全面评(ping)估模型(xing)在不(bu)同(tong)任务形(xing)式下的表(biao)现创(chuang)造了(le)条件(jian)。同(tong)时,LMEval模块化(hua)设计允许开发者依(yi)据自身(shen)研究或(huo)业务需求(qiu),灵活添加新的评(ping)估维(wei)度(du),增强了(le)框(kuang)架的扩(kuo)展性与适(shi)应性。

在(zai)安(an)全评估(gu)层面(mian),LMEval新增的(de)规避(bi)性回(hui)答检测功能能够识别(bie)模(mo)型(xing)在(zai)面(mian)对敏感问题时所采取的(de)推诿策略,这对于(yu)评估(gu)模(mo)型(xing)在(zai)处理敏感信息时的(de)可靠性意义重大(da)。

谷歌开源大模型评测工具LMEval,打通谷歌、OpenAI、Anthropic▲Giskard的安(an)全评(ping)分(fen)显示了不同的AI模(mo)型如何有(you)效地规避(bi)潜在的有(you)害(hai)内容。百(bai)分(fen)比越高(gao),安(an)全性(xing)就(jiu)越高(gao)。(图(tu)源:谷(gu)歌(ge))

在(zai)数(shu)(shu)(shu)据存储与隐(yin)私保(bao)护层(ceng)面,LMEval将(jiang)测试数(shu)(shu)(shu)据存储于自加密的SQLite数(shu)(shu)(shu)据库中,本地(di)访问需密钥验证,有效(xiao)阻断搜索(suo)引擎抓取(qu),在(zai)数(shu)(shu)(shu)据使用(yong)过程中全方(fang)位保(bao)障数(shu)(shu)(shu)据安全与隐(yin)私。

二、评测成本直降90%,月之暗面已部署

据(ju)The Decoder报(bao)道,LMEval采用增量(liang)评(ping)(ping)估(gu)技(ji)(ji)术(shu)后(hou),企业新增测(ce)试场景的(de)运维成本降低90%。国内大模型创业公司月之暗面(mian)技(ji)(ji)术(shu)负责人(ren)王海明、刘征瀛在(zai)今(jin)年(nian)5月26日谷歌LMEval框架发(fa)布后(hou)的(de)媒体沟通会上(shang)透露,该工具已应用于其内部(bu)流(liu)程优化(hua),在(zai)未使用LMEval前,月之暗面(mian)针对(dui)新模型或新场景的(de)评(ping)(ping)测(ce)往往需要数周时间来搭建测(ce)试环(huan)境、设计评(ping)(ping)测(ce)流(liu)程以(yi)及(ji)执行测(ce)试。

而引入LMEval后,原本复(fu)杂(za)冗长(zhang)的流(liu)程得以简(jian)化,现在仅需几天就能完(wan)成一(yi)轮全面(mian)评测,研发周(zhou)期大幅(fu)缩短超两(liang)周(zhou)。

LMEval配套的LMEvalboard可视化(hua)工具支持生成雷达图,能(neng)(neng)直观(guan)对比(bi)不同(tong)模型在各项能(neng)(neng)力(li)上的表现短板。

谷歌开源大模型评测工具LMEval,打通谷歌、OpenAI、Anthropic

开发(fa)者点击图表(biao)即可查看具(ju)体错误案例,还能(neng)并(bing)排(pai)对比(bi)不同模型对同一问题的响应差异(yi),助(zhu)力(li)精准(zhun)定(ding)位模型性能(neng)优劣(lie),为模型的优化(hua)与改进提供(gong)有(you)力(li)依据

结语:谷歌开源LMEval框架,打通五大厂商API接口

谷(gu)(gu)歌(ge)开(kai)放的(de)开(kai)源框架(jia)LMEval基于LiteLLM框架(jia),打通谷(gu)(gu)歌(ge)、OpenAI、Anthropic、Ollama和Hugging FaceAPI的(de)API接口,让开(kai)发(fa)者(zhe)能在统一环境(jing)下评测不(bu)同来(lai)源模(mo)型。通过(guo)模(mo)块(kuai)化设计,它可同时满足文本(ben)(ben)、图像、代码等多(duo)模(mo)态评估需求,提供12种题(ti)型,还能灵活添加新(xin)评估维度。而(er)增量评估技术配合多(duo)线程并行(xing)计算,节省(sheng)80%算力,使(shi)企业(ye)新(xin)增测试(shi)场景的(de)运(yun)维成本(ben)(ben)降(jiang)低(di)90%,显著提升测试(shi)效率、降(jiang)低(di)测试(shi)成本(ben)(ben)。

谷歌推(tui)出的(de)LMeval框(kuang)架通过标准(zhun)化(hua)和(he)灵活性的(de)结(jie)合,为(wei)研(yan)究人(ren)员和(he)开发者提供了便(bian)利。在未来,随着AI技术的(de)不(bu)断演进,LMeval框(kuang)架或(huo)有可(ke)能(neng)成为(wei)行业内评测(ce)工作的(de)标准(zhun),助(zhu)力推(tui)动AI模型的(de)持续(xu)发展与优化(hua)。

来(lai)源:The Decoder