智东西(公众号:zhidxcom)
编译 | 云鹏
编辑 | 漠影
智东西6月12日消息,刚刚,Meta发布了最新的开源世界模型V-JEPA 2,称其在物理世界中实现了最先进的视觉理解和预测,从而提高了AI agents的物理推理能力。

Meta副总裁、首席AI科学家杨立昆(Yann LeCun)在官方视频中提到,在世界模型的帮助下,AI不再需要数百万次的训练才能掌握一项新的能力,世界模型直接告诉了AI世界是怎样运行的,这可以极大提升效率。
比如AI会预测我们(men)舀出一勺东西是要放入另(ling)一个容器(qi)中:

AI甚至(zhi)可(ke)以理(li)解运(yun)动(dong)员的复(fu)杂(za)跳水动(dong)作,并进行动(dong)作拆(chai)解:

据Meta测试数据,V-JEPA 2在测试任务中每一步的规划用时缩短至英伟达Cosmos模型的三十分之一,同时成功率还更高。据称V-JEPA 2使用了一百多万小时的视频来(lai)进行(xing)自监督学习训练(lian)。

在Meta看来,物理推理能力对于构建在现实世界中运作的AI agents、实现高级机器智能(AMI)非常重要,可以让AI agents真正可以“三思而后行(Think Before Acts)”。

此外,Meta还发(fa)布了三个新(xin)的(de)(de)基(ji)准(zhun)测试,用于评(ping)估现有(you)模型从视(shi)频中推理物理世界的(de)(de)能力。
昨(zuo)天(tian)Meta刚刚曝出要成(cheng)立新AI实验(yan)室、招揽28岁华裔天(tian)才少年,并豪掷148亿美元(yuan)(约合人(ren)民币1061亿元(yuan))收购Scale AI 49%股份的消息,今(jin)天(tian)Meta发布(bu)新世界模型(xing),并让杨立昆出来大讲Meta AI重点研究方向和愿景做(zuo)法,颇有些(xie)要为招兵买马“打广(guang)告”的意味。
论文地(di)址:
//ai.meta.com/research/publications/v-jepa-2-self-supervised-video-models-enable-understanding-prediction-and-planning/
一、世界模型让AI有“类人直觉”,强化AI agents理解、预测、规划能力
理解(jie)世界物理规律听起来(lai)并不(bu)复杂,但(dan)这是AI与人类差(cha)距(ju)非常(chang)大的一个方(fang)面。
比如你(ni)把球(qiu)(qiu)抛向空中时,知道重力会将其拉回地面;当你(ni)穿过一个陌生的(de)拥(yong)挤区域时,你(ni)会一边朝目的(de)地移动,一边避免撞到沿途的(de)行人或(huo)障碍物(wu);打曲棍球(qiu)(qiu)时,你(ni)会滑向冰球(qiu)(qiu)即将到达(da)的(de)位置,而非它(ta)当前的(de)位置。

▲判(pan)断篮球的运动轨迹
但AI很(hen)难掌握这(zhei)种(zhong)能力,很(hen)难构建这(zhei)种(zhong)理解物理世界的“心理模型”。

Meta的世界模型,主要会强化AI agents的理(li)解(jie)、预测、规划三项核心能力。
二、关键架构创新大幅提升学习效率,高性能同时兼顾准确率
Meta使(shi)用(yong)视频(pin)来训练 V-JEPA 2,帮助模型学(xue)习物理(li)世界(jie)中的重要规律(lv),包括人类如何与(yu)物体(ti)(ti)互(hu)动(dong)、物体(ti)(ti)在物理(li)世界(jie)中的运动(dong)方式,以及物体(ti)(ti)之(zhi)间的相互(hu)作用(yong)。
据称V-JEPA 2通(tong)过(guo)自监督学习,训(xun)练(lian)了超过(guo)1百万(wan)小时的视(shi)频。
V-JEPA 2是(shi)一种联合嵌(qian)入预测架构(Joint Embedding Predictive Architecture)模型,这也(ye)是(shi)“JEPA”的名称(cheng)由来。

模型包括两个主(zhu)要(yao)组成部分:
一个编码(ma)器,负(fu)责接收原始(shi)视频,并输出(chu)包含对于观察(cha)世界状态语义(yi)上(shang)有(you)用的内容的嵌入(embeddings)。

一个预(yu)测(ce)器,负责接(jie)收视(shi)频嵌入和关(guan)于要预(yu)测(ce)的额外内(nei)容(rong),并输出预(yu)测(ce)的嵌入。

V-JEPA 2跟传统预测像(xiang)素(su)的(de)生成(cheng)式模(mo)(mo)型有很大性(xing)能差异,根据Meta测试(shi)数(shu)据,V-JEPA 2执行(xing)任务(wu)时每个步骤的(de)规(gui)划用时缩短至Cosmos模(mo)(mo)型的(de)三十分之一(yi),不仅用时短,V-JEPA 2的(de)成(cheng)功率(lv)还更(geng)高(gao)。
V-JEPA 2的能力对现(xian)实世界agents理解复杂运动和时间动态(temporal dynamics),以及根据上下文线索预测动作都(dou)非(fei)常(chang)关键。
基于(yu)这种预(yu)测(ce)能(neng)力,世界模型对于(yu)规划给定目标的(de)动(dong)作(zuo)顺序(xu)非常(chang)有用,比如从一个杯子(zi)在(zai)桌子(zi)上的(de)状态到杯子(zi)在(zai)桌子(zi)边上的(de)状态,中间要经历怎(zen)样的(de)动(dong)作(zuo)。

如今(jin)大部分(fen)AI都需要专业(ye)的(de)(de)(de)(de)训练去解(jie)决特定(ding)的(de)(de)(de)(de)任务,而V-JEPA这种自监督的(de)(de)(de)(de)方式,只需要为数不多的(de)(de)(de)(de)案例,就可以(yi)掌握新的(de)(de)(de)(de)能力,在不同的(de)(de)(de)(de)任务和领域中实现更(geng)高的(de)(de)(de)(de)性能表现。

模型可以部署在机械臂上(shang),去执(zhi)行物体操作类的(de)任(ren)务,比如触碰(peng)(Reach)、抓取(Grasp)、选择和摆放物体(Pick-and-place),而(er)不(bu)需要大量的(de)机器人(ren)数(shu)据或者针对性(xing)的(de)任(ren)务训练。

根据测(ce)试(shi)数据,V-JEPA 2在执行这三类任务(wu)时的(de)成功率分为别100%、45%和73%。
三、杨立昆展示世界模型应用场景,首发三个专项基准测试
世界模型可能会(hui)有(you)哪些应用场景,杨立(li)昆也给(ji)大家做了(le)一些展示。
世(shi)界模型(xing)加持下(xia)的AI agents,可(ke)以帮(bang)助(zhu)视障人群更好的认知世(shi)界;

MR头(tou)显中的(de)AI agents可以给(ji)更复杂的(de)任务提(ti)供(gong)指(zhi)导,比(bi)如让教(jiao)育更加的(de)个性化(hua);

AI编程助手可以真(zhen)正理解一行(xing)新的(de)代码会如(ru)何改变程序的(de)状态或变量;

世界模型(xing)对自动化(hua)系统(tong)同(tong)样非常重要(yao),比如自动驾驶汽(qi)车和机器人;

Meta认为世(shi)界(jie)模型会为机器人开启(qi)一个(ge)新的(de)时代(dai),让(rang)现实世(shi)界(jie)中的(de)AI agents不(bu)需要学习天文数(shu)(shu)字的(de)训(xun)练数(shu)(shu)据就可以做(zuo)家务或(huo)体力劳(lao)动。
除了(le)发布V-JEPA 2,Meta还分享(xiang)了(le)三个(ge)新基准测试,用来帮助(zhu)研(yan)究界评估现有模(mo)型通过视(shi)频学习(xi)和(he)推(tui)理世界的能(neng)力:
1、IntPhys 2:用(yong)于测试模型在复(fu)杂合成环(huan)境中的(de)直观物理理解能力(Benchmarking Intuitive Physics Understanding In Complex Synthetic Environments)。
2、一种基(ji)于最小(xiao)视(shi)频对的、感知(zhi)捷径的物理理解视(shi)频问答(da)基(ji)准(zhun)测试(A Shortcut-aware Video-QA Benchmark for Physical Understanding via Minimal Video Pairs)。
3、CausalVQA:面向视(shi)频模型的物(wu)理基(ji)础因果推理基(ji)准测试(A Physically Grounded Causal Reasoning Benchmark for Video Models)。
基准测试地址:
IntPhys 2:
//ai.meta.com/research/publications/intphys-2-benchmarking-intuitive-physics-understanding-in-complex-synthetic-environments/
CausalVQA :
//ai.meta.com/research/publications/causalvqa-a-physically-grounded-causal-reasoning-benchmark-for-video-models/
Shortcut-aware Video-QA Benchmark:
//ai.meta.com/research/publications/a-shortcut-aware-video-qa-benchmark-for-physical-understanding-via-minimal-video-pairs/
结语:AI认知世界提速,AI从数字世界加速走向物理世界
Meta二(er)代世界(jie)模型的(de)(de)发布进(jin)一(yi)(yi)步(bu)优化了模型的(de)(de)性能(neng)和准确率,让物理世界(jie)的(de)(de)AI agents可以更高效地(di)执行任务,而不需要海量的(de)(de)数据(ju)训练,这一(yi)(yi)方向可以说(shuo)是目前AI圈关注的(de)(de)焦点(dian)赛道之(zhi)一(yi)(yi)。
随(sui)着数(shu)据瓶颈问题越(yue)来越(yue)凸显(xian),如何(he)在(zai)(zai)底(di)层技术层面实现突破(po)显(xian)得更(geng)为(wei)关(guan)键,Meta在(zai)(zai)模型架构层面的(de)创新是其世界模型的(de)核心优势。
随(sui)着如(ru)今越来越多的(de)视频模型发(fa)布,AI逐(zhu)渐从文本、图像走(zou)向(xiang)动态的(de)视频,AI理(li)解世(shi)(shi)界(jie)(jie)、认识世(shi)(shi)界(jie)(jie)的(de)速度不断加快(kuai),从英伟达、Meta、谷歌(ge)这样(yang)巨头(tou)到各(ge)路创企,都对打造(zao)世(shi)(shi)界(jie)(jie)模型饶有兴致(zhi),世(shi)(shi)界(jie)(jie)模型之(zhi)战,或许将成(cheng)为(wei)后续AI产(chan)业技(ji)术竞(jing)争的(de)关键看点。
来源:Meta官网