智东西(公众号:zhidxcom)
作者 | ZeR0
编辑 | 漠影

智东西7月30日报道,今日,火山引擎发布全新豆(dou)包·图像编辑模型3.0、豆(dou)包·同声(sheng)传译模型2.0,宣布扣子开源版正式上线,全新升级豆包大模型1.6系列,发布企业自有模型托管方案、Responses API等多个模型服务及工具产品,升级HiAgent 2.0、PromptPilot等工具,为企业和开发者构建Agent、落地AI夯实基础设施。

在(zai)回顾了(le)近期(qi)豆包大模型取得的(de)一系列成绩后(hou),火(huo)山引擎(qing)总裁谭待强(qiang)调(diao),AI云(yun)(yun)原(yuan)生是企业在(zai)AI时(shi)代(dai)构建好Agent的(de)创(chuang)新发(fa)展的(de)关键。基于这样的(de)观察和思考,火(huo)山引擎(qing)持(chi)续优化(hua)AI云(yun)(yun)原(yuan)生全栈服务,支撑Agent开(kai)发(fa)与(yu)落地,帮助企业开(kai)发(fa)者在(zai)AI时(shi)代(dai)更(geng)好地发(fa)展。

一、图像编辑模型3.0:动嘴P图时代来了,一句话指哪改哪

火山引擎总裁(cai)谭(tan)待发布全(quan)新豆(dou)包·图像编(bian)辑模(mo)型3.0和(he)豆(dou)包·同声传译(yi)模(mo)型2.0。

豆包·图像编辑模型SeedEdit 3.0显著优(you)化(hua)了(le)指令(ling)遵循能(neng)力、图(tu)像(xiang)保持能(neng)力、图(tu)像(xiang)生(sheng)成质量,优(you)化(hua)了(le)“动(dong)嘴P图(tu)”的效果和效率,可广(guang)泛(fan)应(ying)用于(yu)影像(xiang)创作(zuo)、广(guang)告营销(xiao)、游戏宣传等领域。

无论是(shi)变(bian)成吉卜力(li)风格、调(diao)整(zheng)光影、P掉路人、把(ba)线稿变(bian)彩图(tu)、替换(huan)背(bei)景,该模型都能得心应(ying)手。

用户通过自然语言指令,即可完成消除多余内容、改变光影效果、替换文字等操作。该模型具备对风格、结构与语义的精准控制力,能够像人类大脑一样理解指令、深度思考,解锁更多创新的修图场景,例如图像风格转换、变换材质、变化人物姿势、根据提示词进行推理等P图玩法

豆(dou)包·图(tu)(tu)像编(bian)辑(ji)模(mo)型(xing)SeedEdit 3.0基于文(wen)生(sheng)图(tu)(tu)模(mo)型(xing) Seedream 3.0,叠加多样化(hua)的数(shu)据融(rong)合(he)方法与特(te)定奖励模(mo)型(xing),可支持1K以上高清(qing)图(tu)(tu)像的生(sheng)成与处理(li),在对(dui)编(bian)辑(ji)区域(yu)进行精细自然调整的同时,能高度(du)还原并保留(liu)图(tu)(tu)像主(zhu)体(ti)、背景及细节信(xin)息(xi)。

动动嘴(zui)就(jiu)能精准(zhun)P图(tu)的时代,真的来了。

比如你(ni)可以要求(qiu)人物(wu)长(zhang)发变短发、改变姿势坐在椅子上(shang),P图后背景、人物(wu)面部特(te)征等细节无损。

你(ni)也可以精准锁定其他区域,比如要求(qiu)只修改毛衣(yi)区域颜(yan)色和纹(wen)理并添加项(xiang)链。

豆包(bao)·图像编辑(ji)模(mo)型(xing)3.0只瞄(miao)准文字区(qu)域,字体、光影会(hui)自动(dong)匹(pi)配原图风格,智能填(tian)充周围纹理(li);还能让黑夜秒变阳(yang)光明(ming)媚的白昼,光影自然过渡,建筑(zhu)、树木细节清晰(xi)锐利,毫无涂抹感或分辨率下降。

此外,该模型可以(yi)理(li)解“发酵”过程(cheng),生成(cheng)体积膨大、充满(man)气泡的(de)发酵面团图。并(bing)且基于面团状(zhuang)态(tai)进行推理(li),在保持面团主体关联性的(de)前(qian)提下,生成(cheng)金黄酥脆(cui)、香(xiang)气四溢的(de)面包(bao)图。

实用玩法很多(duo),比如让它“去掉(diao)所(suo)有路人”、“消除文字”、“给黑白(bai)照(zhao)片(pian)上(shang)色”,或(huo)是给照(zhao)片(pian)、设计换个光影氛围或(huo)风格。

企业用户可(ke)在火(huo)山方舟(zhou)平台调用该(gai)模型API,个人用户可(ke)使用即梦或豆(dou)包App的“豆(dou)包P图”功能体验。

二、同声传译模型2.0:3秒超低延迟,0样本声音复刻

传统(tong)翻(fan)(fan)译(yi)(yi)系(xi)统(tong)通常依(yi)(yi)赖于“级联模(mo)型”,即多个模(mo)块相互(hu)串联,依(yi)(yi)次处(chu)理(li)语音识别、翻(fan)(fan)译(yi)(yi)、声音复刻和语音合(he)成(cheng)等任务,翻(fan)(fan)译(yi)(yi)结(jie)果不(bu)够连(lian)贯、处(chu)理(li)速度慢。

豆包·同声传译模型Seed-LiveInterpret 2.0做到“边(bian)(bian)听边(bian)(bian)说”,支持全双工语(yu)音理解和生成框架,将(jiang)传(chuan)统机器同(tong)传(chuan)的语(yu)音延(yan)迟从8-10秒降低(di)到2-3秒,实现(xian)文本与语(yu)音的同(tong)步生成;无需提(ti)前(qian)录制,一(yi)(yi)边(bian)(bian)说话一(yi)(yi)边(bian)(bian)采样,实现(xian)0样本声音复(fu)刻(ke),让同(tong)一(yi)(yi)个人(ren)同(tong)音色开(kai)口说外语(yu),甚至匹配方言口音,大幅提(ti)升跨语(yu)言沟(gou)通沉(chen)浸感(gan)和效(xiao)率。

三、豆包大模型1.6升级:极速版百万token输入仅0.15元

豆包大模(mo)型(xing)(xing)1.6系列模(mo)型(xing)(xing)能(neng)力(li)升(sheng)级。Doubao-Seed-1.6-thinking-0715深度思考模(mo)型(xing)(xing)增强代码(ma)、推理(li)和视觉理(li)解能(neng)力(li),Doubao-Seed-1.6-flash-0715模(mo)型(xing)(xing)能(neng)力(li)更(geng)全、速度更(geng)快、价(jia)格更(geng)低,Seed1.6-embedding模(mo)型(xing)(xing)可构建强大的多模(mo)态企(qi)业(ye)还(hai)是问(wen)答,实(shi)现(xian)全模(mo)态混合检索(suo)和自定义指令(ling)增强。

火山(shan)引擎智能算法负(fu)责人(ren)吴迪谈道,构建AI应用(yong)有4大挑战:

  • 模型:在业务落地中选择更强的模型;
  • 性能:高质量的吞吐和延迟体验会变得越来越重要;
  • 安全:重中之重是取得更多的客户信任;
  • 工具:多步骤复杂任务和工具使用的能力,会逐渐渗透到广大企业的核心业务中,为额客户创造价值。

应对这(zhei)些挑战(zhan),豆包大模型和火山方舟(zhou)以更(geng)强的(de)模型、更(geng)低(di)的(de)价格(ge)、更(geng)易(yi)落地的(de)方案(an),助力业绩提(ti)升(sheng)。

极速版Doubao-Seed-1.6-flash模型服(fu)务于对延迟和成本敏感的(de)客户,具有能力(li)(li)全、速度快、价格低的(de)特点(dian),在保持出色(se)视(shi)觉理(li)解能力(li)(li)的(de)同(tong)时,升级了代(dai)码、推(tui)理(li)、数(shu)学等大语言模(mo)(mo)型能力(li)(li),非(fei)常适合智能巡检(jian)、手机助手、智能硬件等对模(mo)(mo)型效果(guo)、速度和成本都有要求的(de)大规模(mo)(mo)商业化场(chang)景。

该模型具有业界领先的极低延迟,每token延迟(TPOT)仅10毫秒,在输入文本长度0-32k的区间中(企业使用量最大),每百万tokens输入仅需0.15元,输出仅1.5元,同时还具备(bei)出色的视觉理解能力。

在一个真实(shi)的家用安防客户案例中,Doubao-Seed-1.6-flash帮(bang)助(zhu)客户将输出延(yan)迟(chi)降(jiang)低60%以(yi)上(shang)、端到端性能提升50%以(yi)上(shang),产(chan)品(pin)成本降(jiang)低70%。

吴迪宣布,Doubao-Seed-Translation多语言文本翻译大模型正式开源

豆包最新翻(fan)(fan)译(yi)模型支持28种语言(yan)(yan),打破沟通壁垒,针对(dui)法律条文(wen)、科技用语、文(wen)言(yan)(yan)文(wen)领域的专业术语或复杂文(wen)本都能精准(zhun)把握语境,提(ti)供高质量的翻(fan)(fan)译(yi)。

火山疫情全模态向量化模型Seed1.6-Embedding带来三大突破:全面效果领先,首次实现“文本+图像+视频”混合模态的融合检索,升级自定义指令(ling)能力,让向量生(sheng)成能更贴合各(ge)类业(ye)务(wu)(wu)需求。该模型在权(quan)威测评中包揽多模态全(quan)面任务(wu)(wu)及(ji)中文文本(ben)的(de)最优成绩(ji),可(ke)助力企业(ye)构建更强大的(de)多模态知识库。

例如在电商场(chang)景,你可以强(qiang)调(diao)价格与材质(zhi)的(de)相(xiang)似性;在影视领(ling)域,你可以强(qiang)调(diao)文字剧情与角色的(de)精准(zhun)匹配。这使(shi)得模型更灵活(huo),更容(rong)易被集(ji)成到企(qi)业(ye)现有业(ye)务(wu)(wu)流程中,大幅(fu)降(jiang)低业(ye)务(wu)(wu)落(luo)地(di)门槛(jian)。

目前Seed1.6-Embedding已全面上线火山(shan)方(fang)舟。

Viking DB是字节跳动自研的高性(xing)能(neng)向(xiang)量数据库(ku),面向(xiang)全模态进(jin)行多项升级。

一是全介(jie)质(zhi)(zhi)索引(yin)升级,从(cong)内存索引(yin)(适合高并(bing)(bing)发(fa)(fa)中等数据(ju)规(gui)模,亿级及(ji)以下)、磁盘(pan)索引(yin)(适合地并(bing)(bing)发(fa)(fa)超大(da)数据(ju)规(gui)模场(chang)景(jing),十亿及(ji)以上(shang))到GPU索引(yin)(超过并(bing)(bing)发(fa)(fa)超大(da)数据(ju)规(gui)模场(chang)景(jing)),打通了(le)亿级数据(ju)跨(kua)介(jie)质(zhi)(zhi)检索能力(li)。

二是(shi)更高的性价比,在数亿索引数据(ju)规(gui)模下(xia),相比传统内存方案可将成本降低75%。

三(san)是升(sheng)级全(quan)模(mo)态表征能(neng)力,实(shi)现更易用的(de)文本、图像、视频端(duan)到端(duan)一(yi)键向量化。用户只需(xu)抓住原(yuan)始(shi)数据,系(xi)统就能(neng)自动完成向量化。

例如博查致力于提供AI时代的知识搜索创新,服务了4000多家企业和2万多名开发者,承接着国内超过60%的AI应用所需的联网搜索需求。火山引擎VikingDB协助博查改善了客户体验。

以向量数据库VikingDB为基础,火山引擎还打造了方便易用的升级版知识库,支(zhi)持图文视频全模态处理和混排输出(chu),在国内外(wai)诸多(duo)评测(ce)中展现(xian)出(chu)了(le)更好的效果。

对于很多希望使用火山知识库的开发者,火山引擎进一步推出新的标准版,价格仅为旗舰版的1/10

四、扣子核心能力开源,在火山引擎可自动化部署

7月26日,火山引擎做出一个重要决定:AI Agent开发平台扣子将核心功能开源

本次开源覆盖扣子平台最核心的两个项目: 扣子开发平台(Coze Studio)扣子罗盘(Coze Loop),并采用没(mei)有任何附(fu)加条件的Apache 2.0许可证开源,用户可在GitHub下载。

扣子(zi)(zi)开(kai)(kai)发平台(tai)是(shi)一(yi)个一(yi)站式AI Agent可视(shi)化开(kai)(kai)发工(gong)具,可快速实(shi)现AI Agent的(de)开(kai)(kai)发创建(jian)、调试(shi)和部署;扣子(zi)(zi)罗盘(pan)是(shi)一(yi)个聚焦(jiao)AI Agent的(de)全(quan)流程管理(li)系统,帮(bang)助(zhu)开(kai)(kai)发者实(shi)现Agent从开(kai)(kai)发到运维(wei)的(de)全(quan)链路管理(li)。

扣(kou)子(zi)(zi)开源版(ban)上线受广受欢迎,开源仅3天(tian),扣(kou)子(zi)(zi)开发(fa)平台(tai)在(zai)GitHub上星标过万,扣(kou)子(zi)(zi)罗盘星标超过3000。

HiAgent为扣子开源(yuan)版提供了全面支持。

企业AI平台产(chan)品HiAgent可(ke)调用扣子开源版提供的(de)智(zhi)(zhi)能体搭建和运维(wei)能力,并通过(guo)共享Agent标准,支持扣子开源版智(zhi)(zhi)能体的(de)纳管。

火山引擎的云(yun)基础(chu)(chu)产品也将为扣(kou)子(zi)开源(yuan)版提供高(gao)效、稳(wen)定、可靠(kao)的基础(chu)(chu)设(she)施支持。开发者可一键(jian)拉起(qi)资源(yuan),完成部署。

还有一系(xi)列优惠政策向新(xin)用(yong)户提供。

火(huo)山引擎AI开(kai)源(yuan)矩阵(zhen)越(yue)来越(yue)强(qiang)大,帮助企(qi)业做好数(shu)据,帮助开(kai)发者更好地构建(jian)AI应用(yong),为(wei)AI开(kai)源(yuan)生态繁荣贡献力量(liang)。

五、企业自有模型托管方案发布,通过火山方舟模型单元部署

针对有模型定制需求的企业客户,火山引擎发布企业自有模型托管方案

依托火山方舟模型单元,企业无需运维底层GPU资源,也不用进行复杂的网络和调度配置,就能在火山方舟上实现自研模型的全托管,并在推理服务中享受火山方舟极致的弹性算力资源,大幅降本增效。

在算力成本上,企(qi)业可(ke)自(zi)主选择部署方式、机型,并设置弹(dan)性规(gui)则,更精细(xi)地控制首Token时延、模型吐字延迟,且无需为业务低谷期(qi)付费,最终实现(xian)更高的(de)资源利(li)用(yong)效率。

此外,全(quan)托管的企(qi)业(ye)自(zi)有模(mo)型,还能享受(shou)火(huo)山方舟上(shang)的全(quan)套(tao)开(kai)发工具、MCP服务(wu)等生(sheng)态配套(tao)。

火山方舟模型单元已在火山方舟上开放邀测,可申请体验。

六、Responses API上线,助攻多模态Agent高效开发

多模态模型(xing)统(tong)一、多模态模型(xing)API的(de)统(tong)一,是当前大模型(xing)发展(zhan)的(de)重(zhong)要趋势。

为此,火山方舟平台升级了API体系,推出Responses API

该API具备原生上下文管理能力,支持多轮对话的链式管理,可无缝衔接文本、图像、混合模态数据,结合cache能力后能大幅降低延迟和成本,在很多典型应用里,整体成本下降幅度可达80%

此外,Responses API支持自主选择调用工具,用户发(fa)起单次请求(qiu),即可联(lian)动多个内置工具(ju)、自定(ding)义(yi)函数及多轮模型组合响(xiang)应,解决(jue)复杂Agent任务,让Agent开发(fa)更加省时省力。

例(li)如,搭建一个智能助手(shou)Agent,传统构建方(fang)法(fa)要写(xie)463行代码,用Responses API仅需60行代码,开发(fa)时间可以从1-2天(tian)缩(suo)短到1小时,大幅提升效率。在(zai)学习陪伴场(chang)景,对话式Agent需要兼顾情(qing)绪(xu)引导、英(ying)语(yu)陪练、百科问答等多(duo)种能力,Responses API在(zai)帮助客(ke)户降低延迟的同时,将成本进一步(bu)节约(yue)超50%,并让开发(fa)更(geng)简(jian)易。

七、PromptPilot升级:实现更高效提示词调试,从“碰运气”到“精准调控”

写好(hao)提(ti)示词(ci)(Prompt)是做好(hao)AI应(ying)用(yong)的(de)第一个重要部分。

对提(ti)示(shi)词工程有几个(ge)基本判(pan)断(duan):模(mo)型(xing)越(yue)强大,问(wen)(wen)(wen)出好问(wen)(wen)(wen)题(ti)带(dai)来的(de)正向(xiang)价值(zhi)越(yue)大。很多高价值(zhi)问(wen)(wen)(wen)题(ti)没有标准(zhun)答(da)案,如(ru)何让模(mo)型(xing)理解(jie)(jie)需(xu)求(qiu)、服从产品要(yao)求(qiu)是(shi)一个(ge)长期存在的(de)重要(yao)实践(jian)。提(ti)示(shi)词工程本质(zhi)上(shang)是(shi)一个(ge)搜(sou)(sou)索问(wen)(wen)(wen)题(ti),一切搜(sou)(sou)索问(wen)(wen)(wen)题(ti)长期都(dou)将(jiang)由算(suan)法来解(jie)(jie)决。

实际落(luo)(luo)地(di)过程中也会遇到一些挑战,比如(ru)(ru)如(ru)(ru)何(he)(he)写(xie)出一个高质量的(de)Agent、如(ru)(ru)何(he)(he)提升模(mo)型(xing)落(luo)(luo)地(di)效(xiao)果、怎么(me)定(ding)义目标、如(ru)(ru)何(he)(he)快速实现模(mo)型(xing)+业务落(luo)(luo)地(di)的(de)通(tong)路(lu)?……

PromptPilot通过(guo)引导(dao)交互,帮助用(yong)户明确(que)任务(wu)意图和评估标准(zhun);实现(xian)高效(xiao)迭代,像积累(lei)数据一样积累(lei)Case,通过(guo)SDK调(diao)用(yong),构建Case雷达;回(hui)顾整(zheng)个过(guo)程。深度(du)优化器融合(he)了先进优化技术,模拟人类(lei)反思,类(lei)比错误总结能力,实现(xian)提示词(ci)的全自动优化,全流程支持(chi)联网AI搜索和自定(ding)义知(zhi)识库,确(que)保信(xin)息实时性和专业(ye)性,最后给出可(ke)视化报告,通过(guo)图表数据比对优化前后的效(xiao)果。

火山引擎宣布PromptPilot全新升级,将提供(gong)更(geng)广泛的(de)模型(xing)(xing)优化能力,支持任(ren)意模型(xing)(xing)的(de)提示(shi)与(yu)优化,并与(yu)火山引擎知识库深(shen)度融合(he),能精准调用专业数据库,帮(bang)助模型(xing)(xing)在垂直领域(yu)实现更(geng)准确(que)、更(geng)可靠的(de)理解和输(shu)出(chu)。

多(duo)年来,火山(shan)引擎在算子、框(kuang)架(jia)和调度(du)层面,也开(kai)展(zhan)了很多(duo)深度(du)优化工作。

全(quan)栈式大(da)模型(xing)训练加速引擎veOmni覆盖了LLM、VLM等多类模型(xing),在测试中比诸多开源(yuan)框(kuang)架(jia)训练效(xiao)率提高(gao)50%左右;基(ji)于全(quan)系自(zi)研bit推理(li)框(kuang)架(jia)veFuser,推理(li)效(xiao)率是行业(ye)平(ping)均水平(ping)的(de)4倍(bei)左右。

火山引擎的(de)veTurbo解决方案,从(cong)模型训练、推(tui)理(li)部署(shu)到强(qiang)化学习的(de)全生命周期,帮助客户(hu)实现AI应用的(de)高(gao)效开发。

八、HiAgent:让数字员工“持证上岗”,混合开发、边干边学

火(huo)山引擎副总裁张鑫先分(fen)享了企业员工(gong)忙(mang)碌(liu)的一天会(hui)有哪些(xie)场景,比如看待(dai)办事项(xiang)、开各种(zhong)会(hui)、做会(hui)议纪要、分(fen)配任务(wu)和掌握进展、审核(he)一堆低(di)级错误浪费时间、安排出差(cha)事项(xiang)、写报告、写日报和明(ming)日工(gong)作(zuo)计划等。

这(zhei)暴(bao)露了(le)(le)企业效率的(de)3个(ge)瓶颈:大量工时被规则性任务消耗,系统(tong)来回切换导致上下文中断,以及信息误导。这(zhei)些挑(tiao)战制(zhi)约了(le)(le)决策的(de)效率。

HiAgent作为一(yi)个一(yi)站式智能体工(gong)作台(tai),希望(wang)帮(bang)助企业源源不断地派(pai)遣(qian)数(shu)字员(yuan)工(gong),来拓展人类服务边(bian)界和认知边(bian)界,从而解决上述(shu)问题(ti)。

张鑫总结了生(sheng)产级(ji)智能体(ti)数字员工的6个要素:量(liang)体(ti)裁(cai)衣,能调用(yong)企业(ye)内(nei)部系(xi)统(tong),支(zhi)持低代(dai)码(ma)(ma)与高代(dai)码(ma)(ma)混合(he)开发,对智能体(ti)全生(sheng)命周(zhou)期管(guan)理,通(tong)(tong)过数据(ju)支(zhi)撑与反馈(kui)来帮助(zhu)数字员工边(bian)干边(bian)学(xue)变聪明,通(tong)(tong)过统(tong)一入口(kou)连(lian)接(jie)所有数字员工和企业(ye)系(xi)统(tong)。

企业的战(zhan)斗(dou)力,不在于单(dan)点聪明与(yu)否,而是(shi)看系(xi)统性是(shi)否能打。

低代码开发在(zai)第(di)一阶段能帮助1-2人小团队(dui),通(tong)过提(ti)示词、可(ke)视化拖拉拽(zhuai),完成一个智能体雏形(xing)的搭建与(yu)上线。但当这些智能体逐(zhu)渐走向生(sheng)产(chan)的深(shen)水区,弊(bi)端和局限性(xing)逐(zhu)渐暴(bao)露出来,比(bi)如很(hen)(hen)难做深(shen)度复杂(za)算子的定制、复杂(za)交互界面(mian)及意图识别的开发,也很(hen)(hen)难支持(chi)多(duo)人协同编辑,更不用说如何深(shen)入架构层(ceng)面(mian)去保证整个系统的性(xing)能调(diao)优和高可(ke)用设计。

因(yin)为这(zhei)些弊端(duan),部分团(tuan)队开(kai)始(shi)步入第三阶段,又回归高(gao)代码开(kai)发(fa),通过SDK和IDE插件结合高(gao)代码开(kai)发(fa)平台,直(zhi)接进行模型调用、算法(fa)撰(zhuan)写、整体(ti)架(jia)构(gou)设计(ji),这(zhei)又拉(la)高(gao)了智能体(ti)开(kai)发(fa)的技术门槛,让真正懂业(ye)务的人员无法(fa)直(zhi)接参与(yu)。

HiAgent给出的解决方案(an),就是混合开(kai)发(fa)。

一(yi)方(fang)(fang)面,让专业技(ji)术人员可(ke)以通过全代(dai)码(ma)的方(fang)(fang)式,设计高可(ke)用(yong)、高性能的整体(ti)架(jia)构和定制化算(suan)子(zi);另一(yi)方(fang)(fang)面,业务人员可(ke)在探索(suo)阶段和后面的运(yun)营阶段,继续(xu)通过低代(dai)码(ma)的方(fang)(fang)式去迭代(dai)提示词、公祖留、知识库等,并(bing)将这些能力通过组件嵌(qian)入到高代(dai)码(ma)的抽(chou)象(xiang)中。

通过这种混合(he)开发模式,业务人员(yuan)(yuan)可(ke)以继续进行快速的(de)想法验证,并可(ke)以为数字员(yuan)(yuan)工(gong)打开自动迭代的(de)按钮(niu),技(ji)术人员(yuan)(yuan)可(ke)以通过高代码去解决复杂的(de)逻(luo)辑和深度(du)的(de)性能优化(hua)。

解决(jue)了(le)开发问题,下一(yi)步就是养(yang)成。

就(jiu)像人类(lei)员(yuan)工一(yi)样,智(zhi)能体作为数字员(yuan)工的上(shang)岗过程,也覆(fu)盖(gai)从(cong)招(zhao)聘、试用期培(pei)训到考核、晋(jin)升(sheng)的流程。

HiAgent推出了Agent Devops,实现数字(zi)员(yuan)工全(quan)生命周期管理,覆盖策略规(gui)划(hua)、能力(li)开发、效(xiao)果(guo)评测、品质优化、线上观(guan)测、应用发布等(deng)环节。

HiAgent还发布了数据流转模块,把数(shu)(shu)字员工(gong)产(chan)生的(de)数(shu)(shu)据(ju)(ju)自动(dong)记录到一个学习(xi)库中(zhong),再通过数(shu)(shu)据(ju)(ju)清洗分析和(he)(he)回流沉淀成(cheng)后续的(de)评测集和(he)(he)模型的(de)训(xun)练集,变成(cheng)数(shu)(shu)字员工(gong)的(de)宝贵经验。

通过Agent Devops和数(shu)据流(liu)转模块,越来越多的数(shu)字(zi)员工(gong)可以(yi)从实习生转正,开(kai)始(shi)持(chi)证(zheng)上岗(gang)了。这时数(shu)字(zi)员工(gong)好(hao)不好(hao)用,入口(kou)是关(guan)键。

HiAgent发布人机协同工作台,打造(zao)真人与数字(zi)员工(gong)的“统一交(jiao)互(hu)入口(kou)”,让(rang)用户找(zhao)数字(zi)员工(gong)比找(zhao)真人同事还方便。

HiAgent数字(zi)员(yuan)工(gong)交互入口根(gen)据不同(tong)员(yuan)工(gong)/智能(neng)角色(se)的(de)需(xu)求,提供千(qian)人(ren)千(qian)面、可自定义的(de)工(gong)作画(hua)布形态,在一(yi)个画(hua)布中就能(neng)连接所有业务系统完(wan)成日常工(gong)作,并(bing)通过更(geng)灵活的(de)多(duo)人(ren)协作人(ren)机(ji)协作模式(shi),提升团队的(de)生产力(li)。

从(cong)用(yong)户旅程(cheng)视角来看,HiAgent 2.0帮助企业(ye)构建自己的AI“数字员工派遣站”流程(cheng)如下:

  • 企业个性化需求:企业会梳理个性化需求,可从行业里预制的上百种应用样板间和MCP市场里选择适合的模版与工具;
  • 数字员工养成:通过业务人员和技术人员的协同迭代整合开发,完成数字员工Agent搭建;
  • 派遣上岗:在经过评测、调优、发布后,数字员工可以作为一个职场新人开始上岗;
  • 人机协同:数字员工通过人机协同工作台和真人员工在各种日常业务流程中做不同的协同;
  • 实践成长:再通过全链路的观测、数据支撑、数据回流,让数据员工在实践中不断成长,从一个职场新人进化成一个业务专家。

2025年是智(zhi)能(neng)(neng)体(ti)成(cheng)为(wei)企业(ye)(ye)(ye)“数字同事”、“持证上岗(gang)”的元年。作为(wei)企业(ye)(ye)(ye)的AI“数字员(yuan)工(gong)派遣站”,HiAgent已帮助各式智(zhi)能(neng)(neng)体(ti)在千行百业(ye)(ye)(ye)里“持证上岗(gang)”,落(luo)地汽(qi)车(che)维修、招生咨询、投研(yan)顾问、客服导购等领域(yu)。

结语:火山引擎的AI“朋友圈”愈发多元,加速Agent开发落地

今日的一系列发(fa)(fa)布与升级,进一步(bu)完(wan)善了火山(shan)引擎(qing)AI生态(tai)布局。火山(shan)引擎(qing)已经为企业与开发(fa)(fa)者提(ti)供了从基础模型(xing)到开发(fa)(fa)工具的全链条支持(chi),加速AI在各行业的落地(di)应用(yong)。

越来越多企业(ye)正尝试火(huo)山(shan)引擎(qing)AI原生的各(ge)种产(chan)品(pin)。

例如,金山办公结合豆包(bao)大模型(xing)1.6助(zhu)力AI助(zhu)手灵犀(xi)升级,打(da)造一款原生的(de)(de)Office办公智能(neng)体,使(shi)其AI搜索(suo)、AI写作(zuo)等功能(neng)有更(geng)好的(de)(de)表现,综合成本还(hai)下降了(le)63%,目前(qian)金山办公WPS的(de)(de)豆包(bao)1.6使(shi)用量已突破日均100亿的(de)(de)客户服务。

豆包大模(mo)型(xing)(xing)1.6 Flash拥有超低(di)延时,适用(yong)于智能(neng)巡检、手机助手、智能(neng)硬件等对模(mo)型(xing)(xing)效(xiao)果(guo)、速度(du)和成本(ben)(ben)都要求非常高的(de)商业产品。萤石第一时间选(xuan)择接入豆包大模(mo)型(xing)(xing)1.6 Flash,实(shi)现降本(ben)(ben)增效(xiao),相比之(zhi)前实(shi)用(yong)的(de)模(mo)型(xing)(xing),延时缩短一半,使用(yong)成本(ben)(ben)暴降92.3%。

国内(nei)知名电商(shang)数(shu)(shu)字营销服务(wu)商(shang)蝉妈(ma)妈(ma)利用豆包·视频(pin)生(sheng)成(cheng)模型(xing)(xing),打造了新(xin)一(yi)代数(shu)(shu)字视频(pin)生(sheng)成(cheng)平台,用于(yu)企业营销与创意内(nei)容生(sheng)产,相比之前的视频(pin)生(sheng)成(cheng)模型(xing)(xing),在商(shang)品的主图生(sheng)成(cheng)效果、真(zhen)实(shi)感和视频(pin)可用性(xing)方面都带来明显提(ti)升,节省超过(guo)30%的使(shi)用成(cheng)本。强妈(ma)妈(ma)每天通过(guo)豆包大模型(xing)(xing)生(sheng)成(cheng)的视频(pin)数(shu)(shu)量已(yi)经达(da)到数(shu)(shu)千条,很快将突破(po)日均万条。

在智能电视(shi)场景,酷开整(zheng)合了豆包大模(mo)型能力,用(yong)一句台词(ci)或(huo)一段(duan)剧情准确锁(suo)定心仪(yi)的影(ying)片片段(duan),类似的能力还应用(yong)在教育健康(kang)产(chan)品中。

在游(you)戏(xi)场景,巨人网络(luo)将豆(dou)包(bao)大(da)模型应用在游(you)戏(xi)核心(xin)玩法中(zhong)(zhong),依托豆(dou)包(bao)模型的角色扮(ban)演和深度思考能(neng)力(li),游(you)戏(xi)中(zhong)(zhong)的AI角色既能(neng)与玩家对话,又具备极强的逻辑(ji)推演能(neng)力(li),能(neng)够制(zhi)定出缜密而有(you)趣的游(you)戏(xi)策略,打破传(chuan)统人机交互(hu)死板与套路的模式。未(wei)来(lai)巨人网络(luo)和火山引擎将进(jin)一步(bu)深度挖掘豆(dou)包(bao)大(da)模型的潜(qian)力(li),围绕智能(neng)NPC的创新展开探索。

火山引擎还在不(bu)断迭(die)代模型能(neng)力,为企(qi)业带来能(neng)力更(geng)强、性价比(bi)更(geng)高的模型以(yi)及更(geng)加好用(yong)的服务与工具,加速让AI Agent走向生产与落地。