智东西(公众号:zhidxcom)
作者 | 李水青
编辑 | 心缘
智东西10月(yue)1日(ri)(ri)报道,今日(ri)(ri)凌晨,OpenAI发(fa)布了旗舰视(shi)频和(he)音频生成模(mo)型Sora 2,并(bing)推出“AI版抖音”——Sora应用程序。
OpenAI将Sora 2称(cheng)作“正直奔视(shi)频(pin)领域的(de)GPT-3.5时刻”。相(xiang)比之前的(de)Sora,Sora 2能(neng)更加精准逼真(zhen)地模(mo)拟物理世界,并且更易(yi)于控制(zhi),还(hai)支持(chi)同步对(dui)话和(he)音(yin)效。
从(cong)官方公布的视频(pin)Demo来看,它可以(yi)完成(cheng)(cheng)一些对于(yu)之前的视频(pin)生成(cheng)(cheng)模型难以(yi)完成(cheng)(cheng)的事情(qing):奥运会(hui)体(ti)操动(dong)作、精准模拟浮(fu)力(li)和桨板上(shang)后空翻,以(yi)及(ji)花滑(hua)运动(dong)员(yuan)头顶(ding)猫咪的三周半(ban)跳。
▲提示(shi)词:花样滑冰运(yun)动员(yuan)头顶一只猫表演三周半跳
Sora应(ying)用(yong)程序定位一款社交App,支持用(yong)户(hu)将自己生成的(de)(de)视(shi)频上传,并通(tong)过“客串”功能让(rang)用(yong)户(hu)参与到好友视(shi)频创作中。OpenAI的(de)(de)目(mu)标是试(shi)图打造一种全新独特的(de)(de)人际沟通(tong)方(fang)式。

▲OpenAI推出社交App Sora
目(mu)前,Sora iOS应用(yong)(yong)程序(xu)现已开放下(xia)载,以邀请(qing)制的(de)形式在(zai)(zai)美国(guo)和(he)加(jia)拿(na)大推出。获得邀请(qing)码的(de)用(yong)(yong)户也可在(zai)(zai)Sora官网免费体(ti)验(yan)Sora 2,ChatGPT Pro用(yong)(yong)户可以体(ti)验(yan)更高质(zhi)量的(de)Sora 2 Pro模型。
Sora 2一经发布就在外(wai)网炸开了(le)锅,有(you)大部分人(ren)是求邀请码的,有(you)小(xiao)部分人(ren)已(yi)拿到(dao)邀请码。社(she)交平台(tai)X上立马出(chu)现(xian)了(le)不少Sora 2生成视(shi)频,甚至连OpenAI CEO萨姆·阿尔(er)特(te)曼都被“玩坏(huai)了(le)”。

同(tong)时(shi)也有不少人感到担(dan)忧,X上的一位用户称(cheng):“几个月后,我们将无法区分(fen)什么(me)是(shi)真(zhen)实(shi)的,什么(me)不是(shi)真(zhen)实(shi)的,那将是(shi)一个可怕的时(shi)代。”

▲社(she)交平台X的网友(you)评论
一、Sora 2来了:“视频领域的GPT-3.5时刻”
OpenAI称,2024年2月发(fa)布的Sora在很多方面(mian)都堪称视频(pin)领域的“GPT-1 时刻”——视频(pin)生(sheng)成首次开始显现成效,通(tong)过(guo)扩展预训(xun)练计算能力,物(wu)体持久性等需求得以实现。
OpenAI将Sora 2称作“正直(zhi)奔(ben)视(shi)频领域的GPT-3.5时刻”。先前的视(shi)频模(mo)常常使得物体变形(xing)并扭曲(qu)现(xian)实,以便成功执行文(wen)本提示。例(li)如,如果(guo)篮(lan)球(qiu)运动(dong)员投(tou)(tou)篮(lan)不(bu)中,球(qiu)可能会(hui)自动(dong)传(chuan)送到(dao)篮(lan)筐(kuang)。但在Sora 2中,如果(guo)篮(lan)球(qiu)运动(dong)员投(tou)(tou)篮(lan)不(bu)中,球(qiu)会(hui)从篮(lan)板(ban)上反弹。
还比如,下面这个Sora 2生(sheng)成的(de)后空翻视频,表(biao)演者甚至在落地后有一些踉跄,且脸上出现了因小(xiao)失误(wu)有些尴尬的(de)表(biao)情,很像真实生(sheng)活中的(de)场景(jing)。
▲提(ti)示词(ci):一(yi)个人做后空(kong)翻
有趣的(de)(de)是(shi),该模型犯下的(de)(de)“错误”往(wang)往(wang)看起来像(xiang)是(shi)Sora 2 隐式建模的(de)(de)内部智能体所犯的(de)(de)错误;尽管它(ta)仍然不完(wan)美,但(dan)与先前的(de)(de)系统相比,它(ta)在遵循(xun)物理定律(lv)方面做得更好。
OpenAI认为(wei),对于(yu)任何有用的世界模(mo)拟器(qi)来说,这(zhei)都是一(yi)项极其(qi)重要的能(neng)力——你必须能(neng)够(gou)模(mo)拟失败,而(er)不(bu)仅仅是成功。
该模(mo)型在可(ke)控性方(fang)面(mian)也(ye)实现了巨大的(de)飞跃,能够执行(xing)跨越多个镜头(tou)的(de)复杂指令(ling),同时(shi)精准地保(bao)留世界状态。它擅长处理写实、电(dian)影和动(dong)漫风格。
▲提示(shi)词(ci):维京人(ren)参战——北海(hai)发射(10.0 秒,冬(dong)季凉爽的日光(guang)/中世纪早期)……
作为通(tong)用的视频音(yin)频生成系统(tong),它(ta)能够(gou)创建(jian)具有高(gao)度真实感的复杂背景音(yin)景、语音(yin)和音(yin)效。
▲提示(shi)词:两名身穿(chuan)亮色技术(shu)盔甲的登山探险者,脸(lian)上结满冰霜,眯着眼(yan)睛,急切(qie)地(di)在(zai)雪地(di)里喊叫,一次(ci)一个
用(yong)户还可以将现实世界(jie)的(de)(de)元素直接注(zhu)入(ru)(ru)Sora 2。例如,通(tong)过(guo)观(guan)察我(wo)们一(yi)位队友的(de)(de)视频,该模型可以将其插(cha)入(ru)(ru)到任(ren)何由Sora生成的(de)(de)环境中,并准(zhun)确刻画其外貌和声音。这(zhei)项功(gong)能(neng)非(fei)常通(tong)用(yong),适用(yong)于任(ren)何人(ren)类(lei)、动物(wu)(wu)或(huo)物(wu)(wu)体。
▲提示词:大脚(jiao)对他真(zhen)的很(hen)好,有点(dian)儿(er)太好了,好得有点(dian)儿(er)古怪。大脚(jiao)想跟他一起玩,但(dan)他想玩得太多了。
OpenAI称,该模(mo)型远非完美,并且存(cun)在很多(duo)错误,但它证实(shi)了进一步(bu)扩大视(shi)频(pin)数据上(shang)的神经网络将使我们更接近模(mo)拟(ni)现实(shi)。
二、AI版抖音推出,真人“客串”视频,新社交神器?
今天,OpenAI还(hai)推出了一(yi)款名为“Sora”的全新(xin)iOS社交应用,该应用由Sora 2提供支持。
在应用(yong)中(zhong),用(yong)户可以创(chuang)作、混(hun)录(lu)(lu)彼此的(de)创(chuang)作风格,在可自定义(yi)的(de)Sora动(dong)态中(zhong)发现新(xin)视(shi)频,并(bing)通过“客串(Cameos)”功能将自己(ji)或(huo)好友引入到(dao)视(shi)频中(zhong)。使用(yong)客串功能,用(yong)户只需在应用(yong)中(zhong)进(jin)行(xing)一(yi)次简短(duan)的(de)音视(shi)频录(lu)(lu)制,即可以惊人的(de)保真度将自己(ji)直(zhi)接带(dai)入任何Sora场景。

这(zhei)看起来像一款AI版的(de)抖音或TikTok,而OpenAI认为,围绕这(zhei)项“客(ke)串”功能构建的(de)社交应用是Sora 2体验的(de)魅力所(suo)在(zai)。
几个月(yue)前,OpenAI在(zai)Sora团队开(kai)始尝试“上(shang)传自(zi)己生成的视(shi)频”的功能(neng),他们都玩得(de)很开(kai)心。OpenAI称,这(zhei)感(gan)觉就像是沟通(tong)方(fang)式的自(zi)然演(yan)变——从短信到(dao)(dao)表(biao)情(qing)符(fu)号,再到(dao)(dao)语音备(bei)忘录,再到(dao)(dao)现在(zai)的视(shi)频。
上周,OpenAI向全体员工内部(bu)发(fa)布了这款(kuan)应用(yong)。已经有同事反馈,他们通过这项功能(neng)在公司结识了新朋友。
三、邀请制推出,Sora 2免费可用,Pro用户体验更高级
OpenAI将Sora应用以(yi)邀请制的形式推(tui)出,确保用户能与好(hao)友(you)一同使(shi)用。
收到邀请(qing)后,用户(hu)还可以通过(guo)sora.com访(fang)问Sora 2 。Sora 2最初将免费提供,但这些(xie)功(gong)能仍受计算能力限制。ChatGPT Pro用户(hu)还可以在sora.com上使用实验性的(de)、更高质量(liang)的(de)Sora 2 Pro模型。
OpenAI还计划在API中发(fa)布Sora 2。Sora 1 Turbo将继续可用,用户创建的(de)所(suo)有内容也(ye)将继续存在于sora.com中。
为了(le)防止上瘾等问题,OpenAI将采取一系(xi)列措施。
一是其将为(wei)用(yong)户(hu)提(ti)供工具和自(zi)主选择(ze)权(quan),让(rang)他们(men)能够掌控信息流中的(de)(de)内(nei)容。利用(yong)OpenAI现有的(de)(de)大型(xing)语言模型(xing),其开发(fa)了(le)一类新的(de)(de)推(tui)荐算(suan)法,可以(yi)通过自(zi)然语言进行指导(dao);还内(nei)置了(le)定期调查用(yong)户(hu)健康(kang)状况的(de)(de)机制,并(bing)主动为(wei)他们(men)提(ti)供调整信息流的(de)(de)选项。
默(mo)认(ren)情况(kuang)下,OpenAI会向用户(hu)显示(shi)(shi)主要针对(dui)关注或互(hu)动的人(ren)的内容(rong),并优先显示(shi)(shi)模(mo)型认(ren)为用户(hu)最有可能用作创作灵(ling)感(gan)的视频;不会针对(dui)用户(hu)在动态信息流中花费(fei)的时间进行优化,明确设计(ji)这款应(ying)用的初衷是最大限度地(di)提升创作量(liang),而非消费(fei)量(liang)。
在青少年保护方面,OpenAI将通过ChatGPT推出(chu)Sora家(jia)(jia)长控制(zhi)功能,以便家(jia)(jia)长可(ke)以覆盖无限滚动限制(zhi)、关闭算(suan)法个(ge)性化以及管理私(si)信设置。
在客(ke)串(chuan)(chuan)功能方面,用(yong)户(hu)可(ke)以(yi)与Sora端到端地(di)掌控肖像。只有用(yong)户(hu)本人才能决定谁可(ke)以(yi)使用(yong)自(zi)己的(de)(de)客(ke)串(chuan)(chuan),并且可(ke)以(yi)随时撤销访问权限(xian)或移除包含(han)该客(ke)串(chuan)(chuan)的(de)(de)任何视频(pin)。用(yong)户(hu)可(ke)以(yi)随时查看包含(han)您客(ke)串(chuan)(chuan)的(de)(de)视频(pin),包括其他(ta)人创建的(de)(de)草(cao)稿。
OpenAI在这款应用中处理了(le)许多安全(quan)问题,例如肖像使用方(fang)面的知情同(tong)意、出处确认(ren)、防(fang)止有害内容的生成等等。

其(qi)他应用的(de)(de)很多问题都源于其(qi)盈利(li)模式。OpenAI目(mu)前唯一的(de)(de)计划(hua)是,如果(guo)需求量相对于可用计算能力过大(da),最(zui)终允许用户选择支付(fu)一定金额来生成额外的(de)(de)视频。
结语:Sora 2憋大招,或推动视频生成产业洗牌
自OpenAI在2024年2月(yue)发布Sora已经过去(qu)超一年半时(shi)间,Sora 2终于到(dao)来。从(cong)效果来看(kan),这款模型在模拟真实性、可控性及(ji)音(yin)效方面都有比较大的进展,有望推动视频(pin)生成产业格局加(jia)速洗牌(pai)。
视频(pin)模型正在飞速(su)发展,通用世界模拟(ni)器不仅提供了新的内容生(sheng)成方式,还有望重塑人际沟(gou)通方式。OpenAI正通过全(quan)新的Sora社(she)交App靠(kao)近这一(yi)目(mu)标,也标志视频(pin)生(sheng)成模型在落地(di)应用上更(geng)加成熟。