智东西(公众号:zhidxcom)
作者 | ZeR0
编辑 | 漠影

智东西7月29日报道,在世界人工智能大会WAIC 2025上,商汤科技发布全新「日日新SenseNova V6.5」大模型体系「悟能」具身智能平台,商汤旗下核心产品商汤小浣熊也完成智能体升级

日日新V6.5重点升(sheng)级了强推(tui)理、高效率、智能体(ti)三大能力(li),率先突破(po)图(tu)文交错思维(wei)链(lian)技(ji)术,同时改进多(duo)模(mo)态模(mo)型的融合架构,相(xiang)比V6.0显著(zhu)提(ti)升(sheng)性价比,文本推(tui)理能力(li)和多(duo)模(mo)态推(tui)理能力(li)超越(yue)Gemini 2.5 Pro、Claude-4 Sonnet,多(duo)模(mo)态交互能力(li)超越(yue)Gemini 2.5 Flash和GPT-4o。

此次发布的为什(shen)么(me)是(shi)V6.5,还不是(shi)V7?全国工(gong)商联(lian)人(ren)工(gong)智能(neng)委员(yuan)会主(zhu)席团(tuan)首(shou)任(ren)轮值主(zhu)席、商汤科技董事长兼(jian)CEO徐立(li)解释(shi)说,因(yin)为多模(mo)态思维链构(gou)(gou)造(zao)数据还能(neng)做(zuo)到更大的扩充(chong),所(suo)以利(li)用商汤原来视(shi)觉感知的能(neng)力,再加(jia)上视(shi)觉和文(wen)本之间(jian)关(guan)系的建立(li),多模(mo)态思维链构(gou)(gou)造(zao)能(neng)进(jin)一步助力其基模(mo)型(xing)核心(xin)能(neng)力提升(sheng)。

基(ji)于日日新(xin)V6.5的多(duo)(duo)模(mo)态数(shu)据(ju)分析能(neng)力,综合智能(neng)助手商(shang)汤(tang)小浣熊升级(ji),支持(chi)多(duo)(duo)模(mo)态复杂输(shu)入、多(duo)(duo)模(mo)态融合深(shen)入分析、多(duo)(duo)模(mo)态结果(guo)输(shu)出,在数(shu)据(ju)分析和智能(neng)体(ti)领域(yu)的实测中达到国际标杆(gan)Claude 4 Opus的水平(ping),大幅领先OpenAI o3等模(mo)型。

商汤还推出了面向特定场景的商汤小浣熊教育版和商汤小浣熊金融版。截至目前,“商汤小浣熊家族”产品矩阵已广泛服务多行业企业,用户数量实现1000万+

面(mian)向具身(shen)智能(neng)领域,商汤提供(gong)基于其(qi)世界模型的「悟能(neng)」具身(shen)智能(neng)平台,可为机器人等(deng)各种终端硬件提供(gong)感知(zhi)理解(jie)能(neng)力,并(bing)支(zhi)持(chi)嵌入到(dao)端侧芯(xin)片(pian),灵活适配不同场(chang)景。

一、日日新V6.5:三大升级,多模态推理与交互性能大幅提升

商汤「日日新(xin)V6.5」多模(mo)态基座大(da)模(mo)型(xing)带来三(san)大(da)升(sheng)级:

  • 强推理:图文交错多模态思维链,推理性能比肩Gemini 2.5 Pro、Claude-4 Sonnet;
  • 高效率:多模态架构优化,性价比提升3倍以上;
  • 智能体:数据分析大幅领先,支持端到端的场景落地,实现价值闭环。

通过多模态思维链数据进阶图文交错思维链数据合成,商汤「日日新V6.5」多模态推理与交互性能实现了大幅提升:文本推理能力和多模态推理大幅提升,超越Gemini 2.5 Pro、Claude-4 Sonnet;多模态交互能力超越Gemini 2.5 Flash和GPT-4o,各方面性能突出

商汤「日日新V6.5」率先突破图文交错思维链技术,在大模型中引入形象思维,成为国内首个实现图文交错思维的商业级大模型

在(zai)人类的(de)思(si)考(kao)(kao)中,形象思(si)维(wei)(wei)和(he)逻(luo)辑思(si)维(wei)(wei)同等重要,两者有机(ji)结合才(cai)能形成全面的(de)思(si)维(wei)(wei)能力。所(suo)谓“一(yi)图(tu)胜千言”,一(yi)幅(fu)图(tu)往往比大段文字更能引发有效思(si)考(kao)(kao)。当前,主流(liu)的(de)多模(mo)态(tai)模(mo)型虽(sui)然(ran)已(yi)经实现(xian)了在(zai)输(shu)入端融合多种模(mo)态(tai),但思(si)考(kao)(kao)推理(li)过程依(yi)然(ran)主要依(yi)赖语(yu)言推理(li),图(tu)形和(he)空间推理(li)仍存在(zai)短(duan)板。

多模态思维链构造的(de)关键(jian)在于信(xin)息的(de)图形化表达,相(xiang)比(bi)纯(chun)文本思(si)维链更具挑战,不仅(jin)要呈(cheng)现文字思(si)考过程,还需(xu)生(sheng)成作为思(si)考节点(dian)的(de)图像,难以通过纯(chun)人工方式大规模实现。

商(shang)汤研发团队先基于对思(si)维过程的理解构造种(zhong)子数(shu)据,经监督微调(diao)(SFT)训练让模型初步具备(bei)图文交(jiao)错(cuo)思(si)考能力(li),再通(tong)过多轮强化学习显著提升多模态(tai)推理能力(li)。

同时,商汤改进了多模态模型的融合架构,促进跨模(mo)态早(zao)期(qi)融(rong)合。新架构采用了(le)显著变轻的(de)(de)视觉(jue)编(bian)码器(qi),以及深(shen)而(er)(er)窄的(de)(de)主干模(mo)型,使得视觉(jue)表征在前馈计算早(zao)期(qi)就(jiu)与语言进行对齐和交融(rong),从而(er)(er)令感知(zhi)更高效(xiao),模(mo)态融(rong)合更深(shen)。

得益于模型架构的改进,商汤日日新V6.5在实现成本优化的同时,预训练吞吐量提升了20%以上,强化学习效率提升了40%,推理吞吐量提升了35%以上,取得性能和成本的平衡:相较日日新V6.0,日日新V6.5将性价比提升了3倍

二、综合智能助手商汤小浣熊升级,要打造“办公最强智能体”

大语言(yan)模(mo)型已成为不(bu)(bu)少人(ren)的工作(zuo)辅助工具,但仅靠大语言(yan)模(mo)型,不(bu)(bu)足以让(rang)AI完成从“工具”向“人(ren)”的跃升。

人类的(de)日常任务活动,天然涉及对(dui)文本、图像、视频、网(wang)页等(deng)多模(mo)态(tai)(tai)信息的(de)处理(li)。从生产力工具到生产力,关键(jian)就在于(yu)多模(mo)态(tai)(tai)信息的(de)输(shu)入(ru)、处理(li)与输(shu)出(chu)能力。

基于「日日新V6.5」的多模态数据分析能力,商汤小浣熊全面升级:能够胜任多模态复杂输入,进行多模态融合深入分析,给出多模态结果输出,实现专业的(de)可视化呈现,打造(zao)“办公场(chang)景的(de)AI生产力”。

同时,商汤小浣熊始终保持世界领先的复杂数据分析能力。在客户场景的综合测试中,小浣熊达到在数据分析和智能体领域的国际标杆Claude 4 Opus的水平,大幅领先OpenAI o3等模型,在时序计算、数据匹配、数理计算和异常检测等任务中,准确率均可接近100%

现实办公场景中,数据输入形式极为复杂。在数据分析场景中,截图、文档和PDF等各类文档样式屡见不鲜,而其中结构化信息及表格仅占约70%。即便(bian)是看似基础的Excel表(biao)格,也常(chang)包含合并单元(yuan)格、缺失值、嵌套子表(biao)格及内嵌图表(biao)等复(fu)杂元(yuan)素,大幅提(ti)升处理难度。

商汤小浣熊能以(yi)多(duo)模态思维(wei)实现全局分析,通(tong)过思维(wei)链构造进行多(duo)步思考与(yu)反思,最终(zhong)输出结(jie)构化的结(jie)果。

一个表格看着简单,背后的逻辑因果却非常复杂,如今商汤小浣熊可以让复杂表格简单化

用(yong)户上传包含合并(bing)单元(yuan)格、缺失(shi)值、子表(biao)格、内嵌图表(biao)及外部(bu)图片的复杂Excel表(biao)格。商汤小(xiao)浣熊能够精(jing)准解析表(biao)格内容,建立子表(biao)格间的逻辑关联,最终生(sheng)成完整的分析报(bao)告。

再比如一个复杂输(shu)(shu)入(ru)的(de)用户(hu)(hu)案例,小(xiao)商(shang)户(hu)(hu)在抖音等视频平台(tai)刷(shua)到(dao)有用的(de)表(biao)格(ge)(ge)内容,截(jie)图后上传。商(shang)汤小(xiao)浣熊可以通(tong)过图片信息分解任务(wu)并去除(chu)干扰,提取表(biao)格(ge)(ge)信息,一键(jian)导出可编辑的(de)Excel表(biao)格(ge)(ge)供用户(hu)(hu)填写,输(shu)(shu)入(ru)、分析、输(shu)(shu)出全程都有多模态能力支持顺畅(chang)进行。

传统AI工具多扮演辅助角色,核心工作仍依赖用户主导完成;而商汤小浣熊实现了交互范式的升级——由AI主动承担核心任务,并通过精准提问和用户确认关键信息,交互逻辑如同同事协作

商汤小浣熊任务规划功(gong)能的新颖(ying)交互模式,更利(li)于用户(hu)理解。

以前段时间大火的“苏(su)超”为例,用(yong)户(hu)上传图像表格,要求(qiu)分析(xi)“苏(su)超”TOP球(qiu)员。商汤(tang)小浣熊会自(zi)动抓(zhua)取网(wang)上信息,并依(yi)托(tuo)专家知识生(sheng)成(cheng)(cheng)任(ren)务清单(dan)(如确定 “TOP5” 标准,分析(xi)青训成(cheng)(cheng)绩等)进行(xing)系统(tong)性分析(xi),最终生(sheng)成(cheng)(cheng)高质量分析(xi)文档(dang),还可(ke)导出为Excel、PPT、HTML等可(ke)编辑格式。

整体流程如下:

放大来看,AI是这么做任务拆(chai)解与规划的:

当接收任务(wu)(wu)后,小浣熊会(hui)主动(dong)梳理任务(wu)(wu)细节,就关键(jian)节点(dian)向(xiang)用(yong)户(hu)(hu)提出明确问题(如“是否(fou)需(xu)要按以下1、2、3点(dian)推进(jin)?”),以确保任务(wu)(wu)方向(xiang)准确,真正实现“AI主导干活、用(yong)户(hu)(hu)决(jue)策把(ba)关”的高(gao)效(xiao)模式(shi)。

接下(xia)来(lai)就能依据专家知识生成(cheng)任务清(qing)单(如确定“TOP5”标准(zhun),分析青训成(cheng)绩等)进行(xing)系统性分析,下(xia)一(yi)步该做什(shen)么、可以怎么商量着做一(yi)目了然。

专业数据+工具调用(yong),实(shi)现高(gao)质量内容过程:

最终生成高质量分析文(wen)档,还可(ke)导(dao)出为(wei)Excel、PPT、HTML等可(ke)编辑格式。

凭借复杂任务处理能力,商汤小浣熊加速向行业渗透,此次推出了面向两大具体场景的特制版本——教育版金融版

商汤小浣熊教育版可智(zhi)能分(fen)析(xi)学生(sheng)(sheng)(sheng)(sheng)学习表现、课程效果、学习行(xing)为(wei)模式分(fen)析(xi),已(yi)覆盖500+院校(xiao)、10余种教育场景、25万+教师和学生(sheng)(sheng)(sheng)(sheng),并已(yi)在多所学校(xiao)协助教研团队,帮助学生(sheng)(sheng)(sheng)(sheng)提(ti)升(sheng)学习效率15~30%,降低学业焦虑(lv)发生(sheng)(sheng)(sheng)(sheng)率40%,课堂参(can)与度提(ti)高(gao)2.1倍,资源错配(pei)率降低30%,心理健(jian)康干预及时性提(ti)升(sheng)了50%。

商汤小浣熊金融版可为金融(rong)业提供知识助手、智(zhi)(zhi)能(neng)问数、多(duo)模态智(zhi)(zhi)能(neng)理赔(pei)产品与解决(jue)方案,构建(jian)金融(rong)领(ling)域的 “人机协(xie)同” 智(zhi)(zhi)能(neng)决(jue)策新范(fan)式。

三、「悟能」具身智能平台:让机器人自然讲解PPT,可构建4D真实世界

商(shang)汤「悟能(neng)」具(ju)身智(zhi)(zhi)能(neng)平台以商(shang)汤具(ju)身世界模(mo)型(xing)为(wei)核心引擎,依托商(shang)汤大装置提(ti)供(gong)端(duan)侧和(he)云(yun)侧算力支持,能(neng)够(gou)为(wei)机器人、智(zhi)(zhi)能(neng)设备提(ti)供(gong)强大的感知、视觉(jue)导航及多模(mo)态(tai)交互能(neng)力,推动智(zhi)(zhi)能(neng)终端(duan)向更高层次的自主化与智(zhi)(zhi)能(neng)化演进。

商汤的(de)世界模型叫“开(kai)(kai)悟(wu)(wu)”,“悟(wu)(wu)能(neng)”是“开(kai)(kai)悟(wu)(wu)智能(neng)”的(de)缩写。

该(gai)平(ping)台可赋能机器人等各种终端硬(ying)件,实现对世界(jie)万物的感知理解能力,并支持嵌入(ru)到(dao)端侧芯(xin)片,具有强(qiang)大的场景适配性。

徐立展示了搭载(zai)具(ju)身世界(jie)引擎的(de)人形机器人。它能(neng)生动(dong)讲解(jie)“长安(an)的(de)荔枝”PPT的(de)效(xiao)果,语言自然,风趣幽默,不仅可以(yi)自动(dong)翻页,还能(neng)回答各类问题,并进行阶段性(xing)小(xiao)结。

商汤具身世界模型可生成多视角视频,并确保良好的时间一致性和空(kong)间一致性,让机器能够理解、生成、编辑真(zhen)实世界,在(zai)空(kong)间层面实现世界交互,让“在(zai)真(zhen)实的街道场景中玩‘极品飞车(che)’”成为可能。

该模型还能构建面(mian)向(xiang)人、物、场(chang)的(de)4D真实(shi)世(shi)界。用户仅需(xu)要输(shu)入简(jian)单的(de)提示词,比如“在厨房区域的(de)架子(zi)(zi)上找东西”,“进(jin)入娱乐室(shi)、向(xiang)右(you)转,然后打开通往(wang)院子(zi)(zi)的(de)门(men)”等等,具身世(shi)界模型就能自主进(jin)行位(wei)姿(zi)、动作(zuo)骨架和指(zhi)令(ling)的(de)生成。

徐立(li)说,有了这(zhei)样的一套模型(xing),有了这(zhei)样赋能(neng)的一个基(ji)础,「悟能(neng)」具身(shen)智能(neng)平台最终能(neng)帮助各(ge)(ge)种各(ge)(ge)样具身(shen)智能(neng)企(qi)业实(shi)现(xian)跟现(xian)实(shi)世(shi)界(jie)交互(hu)的梦想。

在世界人(ren)工(gong)智能(neng)大会展区,商汤科技的展台(tai)吸引了大量参观者驻足(zu),一(yi)个会解(jie)说PPT的人(ren)形机器人(ren)成为全(quan)场焦点。

这(zhei)台机器人基于商汤最新的(de)日日新V6.5多模态大模型,拥有强大的(de)音视频(pin)处理和AI交互能(neng)力(li),能(neng)像人一样,边翻(fan)页讲解PPT,边应答观众提问,即(ji)便在嘈杂的(de)环境中,也能(neng)完成实时、流畅(chang)的(de)互动。

傅(fu)利叶、钛虎(hu)、鹿明、鲸鱼(yu)AI、帕西(xi)尼等(deng)多(duo)家机器人也亮相商汤展(zhan)台(tai)。

在商汤联(lian)合(he)生态(tai)伙(huo)伴(ban)“朋友圈(quan)”打造的智(zhi)能(neng)生态(tai)硬件(jian)展区,各(ge)类基于日(ri)(ri)日(ri)(ri)新(xin)V6.5多模(mo)态(tai)大模(mo)型的智(zhi)能(neng)硬件(jian)产品(pin)琳琅满目,有能(neng)和(he)人(ren)类一样对弈下(xia)(xia)棋的元萝(luo)卜AI下(xia)(xia)棋机器人(ren)、能(neng)给孩(hai)子讲解(jie)各(ge)种知识的灵宇宙随身学伴(ban)、全(quan)(quan)球首款宠(chong)物喂养AI毛绒玩具、芙崽AI养成(cheng)潮玩等,展现(xian)了AI给生活、学习带(dai)来的全(quan)(quan)新(xin)体验。

商(shang)汤还全(quan)面展示(shi)了AI基础设(she)施商(shang)汤大装置,“开悟”世界(jie)模(mo)型,以及商(shang)汤商(shang)量、办公小浣(huan)熊、代(dai)码小浣(huan)熊、咔皮(pi)记账、咔皮(pi)action、如影数字人、Seko短片创作 Agent等各(ge)类AI原生(sheng)(sheng)应用,还有面向(xiang)商(shang)业的金(jin)融智脑、AI问(wen)客多模(mo)态文旅讲(jiang)解产(chan)品(pin)、SensePedia企业级智能知识平(ping)台、面向(xiang)智慧城市(shi)的Monolith新一(yi)代(dai)感知模(mo)型生(sheng)(sheng)产(chan)平(ping)台等创新成(cheng)果。

结语:锚定多模态能力,提升生产力和交互体验

1950年,图灵(ling)通(tong)过“模仿游戏”将(jiang)AI定义(yi)为“类人能力(li)”,但实际(ji)的(de)(de)AI一直未能摆脱(tuo)“工(gong)具”的(de)(de)范畴(chou),一度陷(xian)入发展低谷。而(er)在(zai)大模型时代,AI凭借多模态融合能力(li)的(de)(de)突(tu)破,逐(zhu)步触(chu)达AGI边(bian)界(jie),真正开始(shi)向“类人”标准靠近(jin)。

从学习到(dao)陪伴再到(dao)服务,大模(mo)型(xing)正把 “智(zhi)能” 搬进现实生(sheng)活(huo)。商汤科(ke)技通过日日新(xin)V6.5,用多(duo)模(mo)态(tai)能力(li)来推动生(sheng)产力(li)和交互体验提升(sheng),与行业共赴(fu)下(xia)一阶段AI进化的新(xin)征程。

“商汤科技始终探寻人工智(zhi)能本质,以(yi)技术创新激发(fa)最大智(zhi)能,推动AI完成从‘工具’到‘人’的跃迁,成为真正的生(sheng)产力(li)。”徐(xu)立(li)说。