机器人前瞻(公众号:robot_pro)
作者 |  许丽思
编辑 |  漠影

在(zai)具身(shen)智(zhi)能全面竞速的当下,一个长期被(bei)忽(hu)视的问(wen)题正被(bei)不断放大。

VLA模(mo)型作为(wei)具身智能领域的(de)核心(xin)范(fan)式,是(shi)机器人感知(zhi)、理解与行动的(de)核心(xin)路径。然而,过去几(ji)年的(de)研究实践(jian)中,VLA的(de)开发生态却呈现出碎片化(hua)的(de)问题:不同(tong)研究机构(gou)采用不同(tong)的(de)深度学习框架、模(mo)型结(jie)构(gou)和训练管(guan)线,导致算法复现困难、工(gong)程协同(tong)复杂。研究者往(wang)往(wang)需要反复配置多份实验环(huan)境,只为(wei)比较不同(tong)算法的(de)性能;而模(mo)型结(jie)果的(de)公(gong)平(ping)性和可(ke)重复性,也会受到质(zhi)疑(yi)。

与(yu)此同时,许多流行的VLA策略仍(reng)然建立在过时的VLA模型(xing)或LLM模型(xing)之(zhi)上(shang)。比如,OpenVLA及其(qi)衍生模型(xing)CogACT、OFT,都(dou)还(hai)是(shi)基(ji)于Llama2,这意味着,它们无法充分(fen)利(li)用表示能力更强的Qwen3等模型(xing)带(dai)来提升能力。

结果就是(shi),行业在表面上(shang)推陈出(chu)新,实则在同一代技术框架内(nei)打(da)转。这种(zhong)学术与工程层(ceng)面的重复造轮子,也成为制约(yue)具(ju)身(shen)智能快(kuai)速落地的隐(yin)性桎梏。

对此,Dexmal原力灵机推出了Dexbotic,这是(shi)一(yi)(yi)套基于PyTorch框架的(de)开源VLA模型工(gong)具箱(xiang),旨在为具身(shen)智能研(yan)究(jiu)者提供(gong)一(yi)(yi)个标准化、模块化、高性能的(de)一(yi)(yi)站式科(ke)研(yan)基础设施(shi)。

Dexmal 原力灵机硬核开源Dexbotic:一站式搞定VLA研究,终结重复造轮子

Dexbotic以“统一架构+强大预训练模型+实验即脚本”为核心,提供了一个可同时支持多种主流VLA策略的统一代码库,使用户仅需一次环境配置即可复现多种VLA方法。Dexbotic统一的策略表示形式,使得无论是机器人操作还是导航,这些不同类型的VLA策略都可以在统一框架下进行定义与比较。

相关链接如下:

官网://dexbotic.com/
Paper://dexbotic.com/dexbotic_tech_report.pdf
GitHub://github.com/Dexmal/dexbotic
Hugging Face://huggingface.co/collections/Dexmal/dexbotic-68f20493f6808a776bfc9fc4

一、统一数据格式,整合多源机器人数据集

传(chuan)统(tong)VLA研究经常因为数(shu)据往(wang)(wang)往(wang)(wang)格式各(ge)异、命名混乱,视频(pin)、传(chuan)感(gan)器状(zhuang)态与文本描述难以统(tong)一对齐(qi)而陷入混乱,各(ge)种信息常需手工对齐(qi),既耗时又(you)易错。

对此,Dexbotic设计了一种名为Dexdata的统(tong)一高(gao)效的数(shu)据格式,为UR5、Franka、ALOHA、ARX5等多(duo)款主(zhu)流(liu)机器人提(ti)供统(tong)一的数(shu)据格式。

在Dexdata格式中,所有内容被结构化存储为两个核心目录:视频目(mu)录与(yu)JSONL目(mu)录,视频目录中(zhong)存(cun)储(chu).mp4格(ge)式的(de)视频文(wen)(wen)件,而JSONL目录中(zhong)存(cun)储(chu)对应的(de)文(wen)(wen)本信息。每个(ge)JSONL文(wen)(wen)件包含单(dan)个(ge)机(ji)器人任(ren)务的(de)完整数(shu)据(ju),还包含index_cache.json文(wen)(wen)件,用于记录所(suo)有任(ren)务的(de)元数(shu)据(ju)并加速(su)数(shu)据(ju)访问。

Dexmal 原力灵机硬核开源Dexbotic:一站式搞定VLA研究,终结重复造轮子

基于Dexdata格(ge)式的数(shu)据,系(xi)统将自动执(zhi)行(xing)数(shu)据处(chu)理流程,提取图像、文本及状态(tai)信息(xi)用(yong)于模型(xing)训(xun)(xun)练,提高训(xun)(xun)练效(xiao)率(lv)。相比Lerobot与RLDS等格(ge)式,Dexdata在数(shu)据加载与模型(xing)训(xun)(xun)练阶(jie)段能(neng)显著(zhu)节省存(cun)储空间。

数据(ju)标准化是研究的基础,实则决定了后(hou)续多机器人、多视角(jiao)的可拓展(zhan)性,也决定了具身智(zhi)能的规(gui)模(mo)化发展(zhan)潜力。

Dexdata的创新之处(chu),就在(zai)(zai)于(yu)没有局(ju)限(xian)于(yu)单一机器人类型,而是构(gou)建(jian)了可拓展的通用框架,让(rang)不同(tong)机器人的数据能够在(zai)(zai)同(tong)一框架下复用。Dexmal原力灵(ling)机团队还表(biao)示,他们将(jiang)持续扩展Dexdata的适配范围,让(rang)更(geng)多机器人平台接入这一标准(zhun)。

二、提供两种高性能预训练模型,支持多种主流VLA策略

Dexbotic从零开始预训练了视觉-语言模型(xing)DexboticVLM,既可(ke)以(yi)直接支持离(li)散VLA训练,也可(ke)以(yi)作(zuo)(zuo)为现有VLA策略的基(ji)座模型。该模型采用模块(kuai)化(hua)设计(ji),整(zheng)合了CLIP作(zuo)(zuo)为视觉编码器、两层MLP作(zuo)(zuo)为投影层、Qwen2.5作(zuo)(zuo)为大语言模型。

Dexbotic 提供(gong)了两(liang)种预训练模型:

离(li)散型预训练模型(Dexbotic-Base):适(shi)用(yong)于通用(yong)VLA策略(lve),模型(xing)使用(yong)了来自Open-X Embodiment数据集、RLBench、Libero、Maniskill2等多个仿真(zhen)器的数据,并融(rong)合(he)了UR5等真(zhen)实机械人的数据。,用(yong)离散化(hua)token形式来学习(xi)动作(zuo)空(kong)间。研究(jiu)者可直接(jie)在(zai)此(ci)模型(xing)上微调,复(fu)现(xian)π0、OFT、CogACT、MemoryVLA等主流算法,而无需从零训练(lian)。

连(lian)续型预(yu)训练模型(Dexbotic-CogACT):专为连(lian)(lian)续动(dong)作(zuo)策略设计(ji),包括单臂(bei)(bei)和双(shuang)臂(bei)(bei)两(liang)个(ge)版本。单臂(bei)(bei)模型基于Dexbotic-Base进(jin)行连(lian)(lian)续表征预训(xun)练(lian),数(shu)据来自Open-X Embodiment子集(ji)与团队(dui)私有(you)数(shu)据集(ji);双(shuang)臂(bei)(bei)版本包含来自8种真(zhen)实单臂(bei)(bei)机器(qi)人(UR5、Franka、UniTree Z1、Realman GEN72、ARX5等(deng))的52个(ge)任务数(shu)据,还进(jin)一(yi)步引入Robomind、AgiBot World 及 ALOHA双(shuang)臂(bei)(bei)数(shu)据,以支持多视(shi)角(jiao)输入与双(shuang)臂(bei)(bei)任务。

Dexbotic这种同时覆盖离散与(yu)连续动作策(ce)略的(de)设计,精准击中了当前VLA研究的(de)核心需(xu)求差异,既兼顾了学术研究的(de)开放性,又考虑了产业落地的(de)实用性。

目前,DexboticVLM了同(tong)时(shi)提供支持π0、OpenVLA-OFT、CogACT、MemoryVLA等多种VLA策(ce)略的统一代(dai)码库,用(yong)户(hu)仅需(xu)一次环境(jing)配(pei)置即(ji)可复现多种VLA方法。另(ling)外,用(yong)户(hu)也可以(yi)便捷地自(zi)定(ding)义新的VLA模型(xing)。这就(jiu)让研究者无(wu)需(xu)重复搭建(jian)环境(jing),也能轻(qing)松横向比较(jiao)不(bu)同(tong)策(ce)略的性能,从而在统一标(biao)准(zhun)下推动算法的进化。

三、创新实验脚本机制,让开发流程更加简洁高效

在传统的VLA开发流程中,研(yan)究者需(xu)要手动配置大量YAML文件,这些配置复杂、易错,不仅浪费大量时间,也(ye)容易让科研(yan)的可复现性陷入混乱。

而Dexbotic秉持着“实验为中心”的理念,重塑了这一流程。它创新性引入的实验脚本机制,把一(yi)套复杂的实验配置,简化为一(yi)套可继承的脚本体(ti)系,在(zai)确保系统稳(wen)定性的同(tong)时(shi)支(zhi)持(chi)快速实验迭代开发。

具体来说,用户不再需要手动维护(hu)庞杂的配置文件,可基于base_exp脚本(ben)继承配置,修改优化(hua)器(qi)、数据、模型等字段,不必(bi)复制(zhi)完整文件即(ji)可创建(jian)新的实验方案。运行命令格式(shi)为:python xxx_exp.py -task train。

这样(yang)的(de)机制就意(yi)味着,研究(jiu)人员的(de)时(shi)间不再浪(lang)费在环境修补与路径兼(jian)容上,而能真正投入到算法优化本身,提升研究(jiu)单位产出。不仅提升了个(ge)体效率(lv),更能加速整个(ge)行业的(de)技(ji)术迭代(dai)速度,形成良性创新循环。

Dexbotic同时支(zhi)持云(yun)端与本地一体化训练,它既可运行在阿里云、火(huo)山引(yin)擎等大规模云训练平(ping)台上,也适配(pei)RTX 4090等消费级显卡的本地训练环境(jing)。这让(rang)(rang)研(yan)究门(men)槛(jian)被(bei)大幅(fu)降低(di),中小型团队甚至个人研(yan)究者,都可以(yi)以(yi)更低(di)成本参与到具身(shen)智(zhi)能的创新浪潮中。可以(yi)说,Dexbotic让(rang)(rang)做(zuo)实验本身(shen)重新变成了一件轻松(song)、高(gao)效且透明的事(shi)情。

四、显著提升多个主流仿真器效果,还能完成多项日常任务

在多(duo)个主流具身智能仿真基(ji)准,如SimplerEnv、CALVIN、ManiSkill2、RoboTwin2.0 和 LIBERO上(shang),Dexbotic 团队系统验(yan)证了(le)模型(xing)表(biao)现。结果显(xian)示,基(ji)于Dexbotic的策略(lve)在各项指标(biao)上(shang)都(dou)显(xian)著超越了(le)原版。

以SimplerEnv为例,在“将(jiang)勺子放(fang)(fang)在毛巾上(shang)”、“将(jiang)胡萝卜放(fang)(fang)在盘子上(shang)”、“堆(dui)叠方块”与“将(jiang)茄(qie)子放(fang)(fang)入篮子”这些任务中(zhong),Dexbotic的CogACT较原版性能提升(sheng)18.2%,DB-OFT相较原版提升(sheng)46.2%。同时(shi),DB-MemoryVLA在该环境下的成功(gong)率达到(dao)81.3%,比原始版本提升(sheng)近10%。

Dexmal 原力灵机硬核开源Dexbotic:一站式搞定VLA研究,终结重复造轮子

在(zai)CALVIN的(de)长时序操(cao)作任(ren)务中,DB-CogACT在(zai)所有指(zhi)标(biao)上均优于原始模型,平(ping)均任(ren)务长度达到4.06,较原版提升(sheng)0.81。DB-OFT版本也表现出更(geng)优的(de)泛化性能(neng)。

Dexmal 原力灵机硬核开源Dexbotic:一站式搞定VLA研究,终结重复造轮子

在ManiSkill2的(de)多个(ge)抓(zhua)取与放置任务(wu)中,Dexbotic在五个(ge)代表性任务(wu)上进(jin)行了(le)验证。相比(bi)原始(shi)CogACT、OFT,DB-CogACT将(jiang)平均成功率(lv)(lv)又进(jin)一步提升(sheng)了(le)4%,DB-OFT更是将(jiang)平均成功率(lv)(lv)提升(sheng)了(le)42%。

Dexmal 原力灵机硬核开源Dexbotic:一站式搞定VLA研究,终结重复造轮子

在RoboTwin2.0测试中,CogACT在调整瓶(ping)子、抓取滚筒、放置(zhi)空(kong)杯和(he)放置(zhi)手机(ji)支架(jia)这四个任务的平均成功(gong)率为43.75%,而DB-CogACT的成功(gong)率达到了57%。这表(biao)明,Dexbotic的预(yu)训练(lian)模型(xing)在双臂机(ji)器(qi)人形态下能带来显著的性能提(ti)升(sheng)。

Dexmal 原力灵机硬核开源Dexbotic:一站式搞定VLA研究,终结重复造轮子

在(zai)LIBERO基准(zhun)测试中,许(xu)多先进VLA策略(lve)性(xing)能已(yi)经接近(jin)饱(bao)和(he)。但是借(jie)助Dexbotic预训练(lian)模(mo)型(xing),像CogACT、MemoryVLA这些策略(lve)的性(xing)能还能进一步提升,比如,DB-CogACT在(zai)四个任务(wu)集上的平均(jun)成功(gong)率比CogACT基线提高(gao)了1.3%。

Dexmal 原力灵机硬核开源Dexbotic:一站式搞定VLA研究,终结重复造轮子

在真实(shi)世界实(shi)验中,Dexbotic在UR5e、Franka、ALOHA、ARX5等机器人平台上完成了包括(kuo)摆放(fang)餐盘、寻找(zhao)特(te)定(ding)盒子(zi)、按顺序按下按钮等多项任务,成功率普遍在80%-100%之间,展现了较(jiao)强的(de)可(ke)迁移(yi)性(xing)与(yu)控制稳定(ding)性(xing)。

Dexmal 原力灵机硬核开源Dexbotic:一站式搞定VLA研究,终结重复造轮子 Dexmal 原力灵机硬核开源Dexbotic:一站式搞定VLA研究,终结重复造轮子

不过,Dexbotic也验证了,在“撕(si)碎纸(zhi)张(zhang)”“把薯(shu)条(tiao)倒进盘子里”这类精细(xi)操作任务(wu)上,当前(qian)VLA策略还存(cun)在一定挑战(zhan)。

Dexmal 原力灵机硬核开源Dexbotic:一站式搞定VLA研究,终结重复造轮子

Dexmal 原力灵机硬核开源Dexbotic:一站式搞定VLA研究,终结重复造轮子

具身智能的研究离不开开源硬件的支撑。Dexmal原力灵还推出了其首款开源硬件产品——Dexbotic Open Source – W1(DOS-W1),为行(xing)业提供一个低门槛、高可(ke)复现性的硬件底座(zuo)。

DOS-W1采(cai)用完全开源(yuan)的(de)设计(ji)方(fang)案,即将开源(yuan)所有(you)的(de)文档、BOM、设计(ji)图纸(zhi)、组装方(fang)案、相(xiang)关(guan)代(dai)码;采(cai)用大量的(de)快拆(chai)结构与可替换模(mo)块,极大地降低了(le)机器人的(de)使用门(men)槛(jian)、改造便(bian)利性和维(wei)护便(bian)利性。同(tong)时(shi),其符合人体工学的(de)抗疲劳设计(ji),有(you)效(xiao)提升了(le)操作(zuo)人员的(de)舒(shu)适度与数据采(cai)集(ji)效(xiao)率。

DOS-W1不(bu)只(zhi)是一个硬件平台,也是构建产(chan)业开放生态的重(zhong)要节点。Dexmal原力(li)灵机将与(yu)各产(chan)业伙伴一起,持(chi)(chi)续(xu)(xu)丰富(fu)Dexbotic Open Source系列。产(chan)业链(lian)共创,有望(wang)使其成为一个让(rang)更多人真正参与(yu)进来的、能持(chi)(chi)续(xu)(xu)把创新能力(li)带(dai)到现实世界的加速器(qi)。

Dexmal 原力灵机硬核开源Dexbotic:一站式搞定VLA研究,终结重复造轮子

五、结语:加速具身大脑发展的关键一步

在具身(shen)智能的(de)(de)(de)(de)(de)发(fa)展道(dao)路(lu)上,Dexbotic的(de)(de)(de)(de)(de)意义远不止一(yi)个(ge)开源工具箱。它(ta)的(de)(de)(de)(de)(de)出现(xian),不仅显著简化了(le)VLA模型的(de)(de)(de)(de)(de)复(fu)现(xian)与(yu)实验流程、显著提升研究效(xiao)率,还通过高性能预训练(lian)模型与(yu)模块化架构推动了(le)具身(shen)智能研究的(de)(de)(de)(de)(de)发(fa)展,是解决具身(shen)大(da)脑的(de)(de)(de)(de)(de)关键一(yi)步。

对研(yan)究者而(er)言,不(bu)仅可(ke)以使用Dexbotic开(kai)发更(geng)多(duo)真(zhen)实(shi)世界(jie)任务,还能把基于Dexbotic开(kai)发的(de)策略提(ti)交(jiao)至RoboChallenge平台。RoboChallenge基于多(duo)款主流机(ji)器(qi)人(ren)底(di)座(zuo)、远程真(zhen)机(ji)实(shi)验、Table30桌面(mian)操作基准测试集,够(gou)克服(fu)真(zhen)实(shi)环境下(xia)的(de)性能验证、标准化测试条件、公开(kai)可(ke)访问测试平台等挑战,为模(mo)型(xing)(VLAs)在机(ji)器(qi)人(ren)的(de)实(shi)际应用提(ti)供更(geng)加可(ke)靠和可(ke)比(bi)较的(de)评估标准。

Dexmal原力灵机称,将(jiang)持(chi)续投(tou)入Dexbotic生态建(jian)设,计划扩展更多(duo)先(xian)进VLM基座模(mo)型,集(ji)成(cheng)仿(fang)真到真实(shi)物(wu)理(li)世界的迁移学习工具链,并(bing)建(jian)立(li)社(she)区驱动的模(mo)型贡献机制。还(hai)邀请全球(qiu)开发者通过代码贡献、算法优化、应用案例(li)分享,共同参(can)与Dexbotic社(she)区建(jian)设,为(wei)通用机器人智能的到来奠定坚实(shi)基础(chu)。