智东西(公众号:zhidxcom)
作者 | ZeR0
编辑 | 漠影

国产(chan)大模(mo)型,给人形机器人装上大脑(nao)、眼睛、耳朵和嘴(zui)巴了!

这位(wei)傅利(li)叶通用人(ren)形机器人(ren)GRx,立即辨认(ren)出(chu)“水”和(he)“可乐”,还能根(gen)据说话人(ren)提出(chu)的“想减肥+爱运动(dong)”需求,给出(chu)适合的建议。

让它夸人,也是张口就来。

另一位具身智(zhi)能机器人“飞燕”,能娓(wei)娓(wei)道来地描述眼前(qian)的场景(jing),包括室(shi)内环境如(ru)何、人们在(zai)做什(shen)么。

这意(yi)味(wei)着以后机器人(ren)(ren)(ren)迎宾或(huo)当解说员,不(bu)再是站(zhan)桩上(shang)岗了,而是活人(ren)(ren)(ren)感满满,更自如地跟人(ren)(ren)(ren)侃天(tian)侃地聊周围,还(hai)能察觉眼前人(ren)(ren)(ren)的心情(qing),通过改(gai)变语气和音调给足情(qing)绪价(jia)值。

这些多模(mo)态能(neng)力,来自商汤刚刚发布的新(xin)一(yi)代「日日新(xin)SenseNova V6」大模(mo)型。

今天,「日日新SenseNova V6」火力全开,实现「长思维链 x 数理能力 x 推理能力 x 全局记忆」能力升级,包括最长64K思维链大幅领先GPT-4o的数据分析能力多模态深度推理国内第一10分钟长视频理解及深度推理等强项,还展示了将(jiang)先进视觉交互和理解引入机(ji)器人(ren)的应(ying)用效果。

商(shang)汤这次多模态能(neng)力的升级(ji),让人形机器(qi)人在(zai)视觉和语(yu)言能(neng)力上,具备了更趋近人的水平。

当智东西问到是否会推动大模型加速应用到具身智能机器人,商汤科技联合创始人、执行董事及人工智能基础设施和大模型首席科学家林达华干脆利落地回答:“这个肯定会去做。

林(lin)达华(hua)说(shuo),商(shang)汤将(jiang)“如(ru)何将(jiang)机(ji)器人交(jiao)互能(neng)力与具身智能(neng)的结合(he)”视(shi)作一个非常重要(yao)的未来(lai)发展(zhan)方向。他认为(wei)最(zui)终(zhong)的AI交(jiao)互形态是像人一样交(jiao)互,不会是对(dui)着一个电脑窗口,届时从机(ji)器人、汽车(che)到手(shou)机(ji)、眼镜,多模态交(jiao)互将(jiang)无处不在。

除了(le)当导游、讲(jiang)解员,「日(ri)(ri)日(ri)(ri)新SenseNova V6」也能玩创意(yi),智东西实测了(le)让它给空(kong)白梗图设计对话,脑洞开得既(ji)多又(you)大。

它还能速览中长分钟(zhong)视频(pin),总结重点内容,精(jing)确到视频(pin)里的几(ji)分几(ji)秒(miao),而且能按照用(yong)户要求(qiu),将信息按列(lie)表形(xing)式(shi)输(shu)出,或是剪(jian)辑指(zhi)定场景(jing)的视频(pin)片(pian)段(duan)。

只需(xu)在(zai)商(shang)(shang)量网页版上传一个视(shi)频,你就可以做(zuo)针对性(xing)(xing)的(de)提问,比如(ru)“这俩(liang)人(ren)关系(xi)怎么样?”、“这个人(ren)推(tui)荐的(de)三个商(shang)(shang)品,哪(na)个性(xing)(xing)价比高?”

你还可以让它深入分(fen)析(xi)故事情节,比(bi)如分(fen)析(xi)某一集《名侦(zhen)探柯南》里(li)凶手(shou)是(shi)怎么(me)下毒的(de)。

林达华透露说,今年商汤将把视频理解支持时长进一步提升到1小时

商(shang)量(liang)App上的实时视音频(pin)交互能力(li)也(ye)非常丝滑方便,打开手(shou)机摄(she)像头(tou),就(jiu)可以哪里(li)不(bu)懂问哪里(li)。无论是镜头(tou)里(li)一扫而过的街景,还是讲解数(shu)学题(ti)和翻(fan)译文字,或者(zhe)看图讲故事,AI都信手(shou)拈来。

全新(xin)商(shang)量网页版即日(ri)上线(xian),商(shang)量App已开启内测,日(ri)日(ri)新(xin)SenseNova V6 API明日(ri)上线(xian)。

网页版指路:chat.sensetime.com

商汤还发布商汤大(da)(da)装置(zhi)SenseCore 2.0,同时推出四大(da)(da)行业(ye)解决方案,要做“最(zui)懂(dong)大(da)(da)模型的(de)AI基础设施”。

值得一(yi)提的(de)是,国(guo)产芯片(pian)参与了「日日新(xin)SenseNova V6」的(de)训练。

商汤科(ke)技联合(he)创始人、大装置事业群总裁杨(yang)帆告诉智东(dong)西,国(guo)产芯(xin)片(pian)(pian)这(zhei)三年快速进步,商汤持续对进口及国(guo)产芯(xin)片(pian)(pian)做适配和优化,希望(wang)能提供(gong)市场最优的性价比。

一、6000亿参数多模态基座模型开“团战”:强推理 x 强交互 x 长记忆

2025年大(da)模型发展(zhan)有三大(da)重要技术趋势(shi):效率至(zhi)上、多模态、深度(du)推理。

新发布的「日日新SenseNova V6」原生多模态通用大模型,采用混合专家架构(MoE),拥有6000亿参数,做到三合一:多模态长思维链+多模态强化学习+多模态全局记忆

其推(tui)理能(neng)力显(xian)著提升(sheng),一(yi)个模(mo)型(xing)(xing)同时在多模(mo)态推(tui)理和纯文本推(tui)理上做到性能(neng)对标国际领先模(mo)型(xing)(xing)。从商(shang)汤展示(shi)的分数来看,SenseNova V6 Reasoner推(tui)理模(mo)型(xing)(xing)的推(tui)理能(neng)力超过(guo)了OpenAI o1和Gemini 2.0 flash-thinking。

商汤(tang)也实诚地(di)放出(chu)了SenseNova V6与OpenAI、谷(gu)歌、DeepSeek先进模(mo)型在纯文(wen)本(ben)、多(duo)模(mo)态、纯文(wen)本(ben)推(tui)理(li)、多(duo)模(mo)态推(tui)理(li)上的(de)具体分数对(dui)比(bi),总体旗鼓相当,高低略有(you)参(can)差 。

其中,纯文本推理和多(duo)模(mo)态(tai)推理方(fang)面,SenseNova V6在多(duo)项数学基准测试中的(de)超过(guo)了(le)DeepSeek-R1、OpenAI o1、GPT-4.5。

SenseNova V6的Tablebench通过(guo)率超过(guo)GPT-4o,展现出强推理能力。

主打实时视(shi)(shi)音频(pin)(pin)交互的SenseNova V6 Omni,实现了视(shi)(shi)频(pin)(pin)-语音交融的端到端输入输出,在(zai)多模态(tai)音视(shi)(shi)频(pin)(pin)学术榜单(dan)上的综合能(neng)力全面领先(xian),单(dan)项能(neng)力对标专用大模型水准,做(zuo)到视(shi)(shi)觉理解准确度高(gao),语音错误率(lv)低。

在(zai)场景能力(li)(li)私(si)域(yu)评测中(zhong),SenseNova V6 Omni在(zai)识别能力(li)(li)、问答对(dui)话、记忆(yi)能力(li)(li)等(deng)维度均(jun)显(xian)著(zhu)领先于同类产品(pin)。

二、携手具身智能,让机器人真听、真看、真思考

模型不(bu)能(neng)纸上谈兵,解决现实问题才是硬本事。商汤认为,大模型在商业应(ying)用上有两个关键(jian)价值(zhi):融入(ru)真实的业务应(ying)用,优化与(yu)人(ren)交互(hu)体验(yan)。

而真实世界(jie)中的对话,不是像跟DeepSeek对话那样(yang),把(ba)每个指(zhi)令(ling)都(dou)描述(shu)得很完整清(qing)晰,可能(neng)随(sui)手指(zhi)着一个东西提(ti)问:“那个是啥?”“这道题怎么做?”

对应到机器人也是(shi)如(ru)此。

多模态融合模型(xing)可(ke)以成为机器人(ren)的大脑和眼睛,增强感(gan)知能力(li)(li),像人(ren)一样进行(xing)深入思(si)考和自然表达,还有更强的记(ji)忆力(li)(li),比如能够(gou)记(ji)住之(zhi)前来参(can)观过(guo)的人(ren)。

这使得机器人在(zai)落地到导览(lan)等应用(yong)场景时(shi),可(ke)以(yi)随时(shi)随地做讲(jiang)解(jie),在(zai)网络通畅的状(zhuang)态下,实(shi)时(shi)理解(jie)和响(xiang)应语音(yin)意图,与人流畅对话,实(shi)现更拟(ni)人化(hua)的社交与互动。

得益于「日(ri)日(ri)新SenseNova V6 Omni」多模态能(neng)力的进化,机器人(ren)能(neng)够(gou)看(kan)懂人(ren)的手势,回答人(ren)们对周(zhou)围环境及物品(pin)的提问,根据对话内容和(he)场景(jing)灵活(huo)切换(huan)交流(liu)方(fang)式,带给用户更(geng)真实、亲(qin)切的互动(dong)体验(yan)。

具身智(zhi)能将是商汤(tang)多模态推理模型的重要(yao)场景之(zhi)一(yi)。此次(ci)技术交(jiao)流日上(shang),商汤(tang)特(te)别设置具身智(zhi)能主题(ti)论坛(tan)。

谈(tan)到(dao)近(jin)期引起(qi)舆论争(zheng)议的“朱(zhu)啸虎(hu)批量退出人(ren)(ren)(ren)形机器(qi)人(ren)(ren)(ren)”以及具(ju)身(shen)智能泡(pao)沫话题(ti),作为人(ren)(ren)(ren)形机器(qi)人(ren)(ren)(ren)嘉宾代表,银河通用合(he)伙人(ren)(ren)(ren)、大模型(xing)负责人(ren)(ren)(ren)张直政谈(tan)道,作为科研人(ren)(ren)(ren)员,他从谨慎乐观的角度来看(kan)待,泡(pao)沫对于驱动科技创(chuang)新很正(zheng)常。

商(shang)汤(tang)科(ke)技联合创始人、大装置事业(ye)(ye)(ye)群(qun)总(zong)裁杨帆认为,科(ke)技产(chan)业(ye)(ye)(ye)要经历(li)质(zhi)疑,克服质(zhi)疑,才能迈向更(geng)(geng)认真(zhen)严(yan)肃的产(chan)业(ye)(ye)(ye)阶段(duan),让大家更(geng)(geng)认真(zhen)的思考距离商(shang)业(ye)(ye)(ye)落(luo)地还有(you)多(duo)远。他相信多(duo)模态交互能力会给机器人带来帮助。

三、AI融入“百姓日用”:总结中长视频重点,生成游戏解说脚本,实时视音频通话

在日(ri)常生活(huo)和办公场景(jing)中,应用了「日(ri)日(ri)新SenseNova V6」系列(lie)模型后,也能带来更多便(bian)利和生产(chan)力的提升。

比如(ru)上(shang)传时(shi)长(zhang)10分钟以内的(de)网课、旅(lv)游、生活类(lei)视(shi)频(pin),就(jiu)可以让AI快速整(zheng)理重点、回答与视(shi)频(pin)内容相关的(de)问题(ti)。

商家可(ke)以(yi)收集顾客对(dui)新品的(de)评论吐槽截(jie)图,让「日日新SenseNova V6」做(zuo)专业的(de)经营分析。

它还(hai)能解(jie)决真实办公场景(jing)里繁琐但重要(yao)的需求,包括信(xin)息管理(li)、报告生(sheng)成、运维日志生(sheng)成、数学建模等。

另外(wai)通(tong)(tong)过商量app,不仅(jin)有常(chang)见的文(wen)字(zi)聊天、图片问答、深度思考等功能,还(hai)能进行音频通(tong)(tong)话(hua)和视频通(tong)(tong)话(hua),并针对四大(da)高频需(xu)求,提供(gong)「数学(xue)解题」、「点读翻译」、「文(wen)旅讲解」、「绘本讲解」四大(da)功能。

你(ni)可(ke)以跟AI玩“你(ni)画我猜”。在(zai)开场(chang)演示中,「日日新SenseNova V6」立即识(shi)别(bie)出用户正在(zai)画的是哪吒大电影里的太(tai)乙真人(ren)。它还能惟妙惟肖(xiao)地(di)模仿(fang)太(tai)乙真人(ren)角色的口音(yin)。

拍(pai)照解题几乎已经(jing)是各类多(duo)模(mo)态AI聊天app的标配。但这些普(pu)遍要先拍(pai)照,上传照片(pian),再等(deng)AI输出一(yi)个很长的答案。

而通过商(shang)量app实时视频通话,AI可以(yi)像一(yi)(yi)个(ge)真(zhen)人家教(jiao),精准识别手写(xie)体,深度推理(li)分(fen)析和定位错(cuo)误,并针(zhen)对错(cuo)误点一(yi)(yi)步(bu)(bu)一(yi)(yi)步(bu)(bu)引导式讲(jiang)题。

外出旅游就更方便了(le),相(xiang)当于在(zai)手机里拥有一(yi)个(ge)博学(xue)多识的免(mian)费导(dao)游,打开摄(she)像头一(yi)扫,想问(wen)什么都(dou)能立即(ji)获(huo)得(de)答(da)案。你还可(ke)以(yi)把摄(she)像头对准(zhun)外文书籍或菜单,让AI实时(shi)翻译。

在家(jia)庭(ting)场景,很多家(jia)长没有(you)时间读绘(hui)本,或者得绞(jiao)尽(jin)脑汁地给孩子(zi)讲故(gu)事(shi)。这也可以由(you)商量app代(dai)劳,它能实现连续记(ji)忆(yi)与时序逻辑(ji)理解,讲述更完整(zheng)生动的(de)故(gu)事(shi),还能挖掘故(gu)事(shi)深意,升华(hua)主旨。

四、三大多模态技术创新,商汤大装置大降推理成本

上(shang)述进展(zhan)离不开商(shang)汤在技术(shu)上(shang)的持续(xu)创新。会(hui)上(shang),商(shang)汤着重强调了(le)三类技术(shu):

(1)多模态长思维链:通过智能体(Agents)协作进行长思维链(lian)(lian)合(he)(he)成(cheng)和验证,可支持合(he)(he)成(cheng)最长 64K的多模(mo)态长思维链(lian)(lian),使模(mo)型具备(bei)面对复(fu)杂问题的长时间思考能力。

(2)多模态强化学习:构建了面(mian)向(xiang)多(duo)种图文(wen)任务的(de)混合增强(qiang)学(xue)习框架,可(ke)以同步(bu)进行基于(yu)人类偏好的(de)RLHF、基于(yu)确定性答案或沙盒运行的(de)RFT,并通(tong)过动态调节(jie)机(ji)制保证主客观表现的(de)均衡(heng)。

(3)多模态全局记忆:可将视(shi)觉信息、听觉、语言、与(yu)时间轴逻辑进(jin)行对齐,形成多模态统(tong)一(yi)时序(xu)表(biao)征(zheng)。在此基础上通(tong)过(guo)内容敏感的细粒度级联(lian)信息压缩,实现400倍的长视(shi)频压缩。

此外,SenseNova V6 Video将视频理解时长突破到10分钟,离不开长视频统一表征和动态压缩的技术进步,可(ke)将10分钟长视频(pin)压缩(suo)到(dao)16K tokens,同时仍然(ran)保留(liu)关键(jian)语义。通过(guo)“视觉(jue)-听觉(jue)-语义”三重关联推理(li),它能发(fa)现(xian)视频(pin)内容中的一些矛盾和漏洞。

大模型技术的高效落地与规模化应用,离不开高效稳定的算力底座。据商汤科技联合创始人、大装置事业群总裁杨帆透露,商汤大装置已经将商汤多模态推理应用的成本降到和大语言模型一样

通过PD分离/通信计(ji)算(suan)(suan)折叠(die)/FP8强化(hua)(hua)/算(suan)(suan)子优(you)化(hua)(hua)等基础设施(shi)与模型协同优(you)化(hua)(hua),结合预(yu)测(ce)模型驱动的弹性伸缩技术,商汤大装(zhuang)置实现了(le)推(tui)理性能的突(tu)破,在线(xian)服务(wu)性能较头部厂商提(ti)升15%,超行业平均水(shui)平25%;离线(xian)推(tui)理方(fang)面,Prefill阶(jie)段提(ti)速(su)5倍,Decode阶(jie)段提(ti)速(su)3.5倍。

此(ci)外,商汤(tang)大(da)装置联(lian)合(he)某头部客(ke)户进行(xing)了大(da)规模(mo)异构(gou)(gou)混(hun)训,基于自(zi)动(dong)并(bing)行(xing)策略、跨芯(xin)通信、容错恢复等核心技术,在5000张(zhang)国产GPU集群上实现1个月稳定异构(gou)(gou)混(hun)训,达成80%算(suan)力(li)利用(yong)率(lv),成功突破单一GPU限制(zhi),为国产芯(xin)片碎片化(hua)问(wen)题提供了关(guan)键解决方案。

商汤大装置还宣布今年发放1亿代金券,全(quan)栈赋(fu)能场景(jing)落(luo)地。

结语:商汤坚定“三位一体”战略,加速“一基两翼”布局

大模型算法与基础(chu)设施的联合优化,已经(jing)成(cheng)为推动(dong)生(sheng)成(cheng)式AI飞速发展(zhan)的核(he)心动(dong)力。

当前(qian),商汤正基(ji)于“大(da)(da)装置-大(da)(da)模型(xing)-应用(yong)”三位一体核心(xin)战略,全面构(gou)建未(wei)来竞争力(li),致力(li)于通过基(ji)础(chu)设施、大(da)(da)模型(xing)和应用(yong)的(de)协同迭代,成为“最懂(dong)算力(li)的(de)大(da)(da)模型(xing)服(fu)务商”和“最懂(dong)大(da)(da)模型(xing)的(de)算力(li)服(fu)务商”。

基(ji)(ji)于三位一(yi)体(ti)战略,商汤打造(zao)以日(ri)日(ri)新(SenseNova)多模(mo)态大(da)模(mo)型(xing)为基(ji)(ji)石,以生产(chan)力工具和交(jiao)互(hu)(hu)(hu)工具为两大(da)落地方(fang)向(xiang)的(de)“一(yi)基(ji)(ji)两翼”布局(ju)。其中生产(chan)力工具侧重在企业copilot、金融、政务(wu),交(jiao)互(hu)(hu)(hu)化工具侧重在拟人交(jiao)互(hu)(hu)(hu)、多模(mo)态交(jiao)互(hu)(hu)(hu)、智能营销(xiao)。

从技(ji)术(shu)突破(po)、商(shang)业落(luo)地到生态(tai)协同,商(shang)汤正(zheng)(zheng)在摸索出作为独立(li)AI企业的核心(xin)竞争力(li),深入真(zhen)实(shi)场景(jing)需求,服务于大众和企业日(ri)常,将(jiang)多模态(tai)大模型的优势真(zhen)正(zheng)(zheng)落(luo)到实(shi)处,实(shi)现更(geng)智慧、更(geng)温(wen)暖、更(geng)有用的人机交互。