智东西(公众号:zhidxcom)
作者|程茜
编辑|漠影
智东西7月25日报道,在世界人(ren)工智能大会(hui)正式开幕(mu)前一天(tian),阶跃(yue)星辰在发(fa)布会(hui)上接连放出一系(xi)列重磅消息。
首先,阶跃发布新一代主(zhu)力(li)基座(zuo)模(mo)型(xing)Step 3,并宣布将于7月31日面向全球企业和开发者开源,为开源世界贡献最强多模态推理模型。Step 3的野心是打造推理时代最适合应用的模型,实现了行业领先的推理解码效率。它在国产(chan)芯片(pian)上的推理(li)效率最高可达(da)DeepSeek-R1的300%,且对所有芯片(pian)友好。
这也引出了第二个重磅,阶跃宣布(bu)联(lian)合近(jin)10家(jia)芯(xin)片及基础(chu)设(she)施厂商,共同发起(qi)“模芯(xin)生态创(chuang)新联(lian)盟”,致力于通过底层联合创新提升大模型适配性和算力效率,加速大模型应用落地,包括华为昇腾、沐曦、壁仞科(ke)技(ji)、燧原科(ke)技(ji)、天数智(zhi)芯、无问(wen)芯穹(qiong)在(zai)内的多家顶(ding)级(ji)国产芯片大佬罕见地(di)在(zai)阶跃(yue)发布会同(tong)台亮相。
与基础大模型能力进阶同频的,是阶跃星辰在大模型商业化应用落地上势如破竹——根据官方披露的数据,2025年(nian)上半年(nian),阶跃星辰(chen)的(de)收入快速增长(zhang),全(quan)年收入预计接(jie)近(jin)10亿元。
阶跃星辰(chen)创始人、CEO姜大昕谈(tan)道,随(sui)着大模型(xing)进入到强(qiang)化(hua)(hua)学习(xi)发展阶段,新一代推理(li)模型(xing)成为主流,模型(xing)性能(neng)的(de)提升固然显(xian)著(zhu),但这是否完全等同于模型(xing)价值?什么样的(de)推理(li)模型(xing)是最适(shi)合商业化(hua)(hua)应用的(de)?如何联动模型(xing)、芯片(pian)、基础设施全技术链条的(de)力量,一起加速大模型(xing)的(de)应用落地?基础大模型(xing)公(gong)司如何通过技术创新找到健康可持续的(de)商业化(hua)(hua)路(lu)径?
阶(jie)跃在这(zhei)场发布会对这(zhei)一系列问题(ti)交出了有(you)行(xing)业启发性的答卷。
一、多榜单超主流开源模型,推理效率可达DeepSeek-R1 300%
推理(li)模型已然成为今年(nian)大模型产业的热词。
但当下推理模型(xing)(xing)的(de)(de)可(ke)用性(xing)(xing)仍(reng)被多(duo)重现实瓶(ping)颈(jing)制约:能(neng)(neng)支撑(cheng)其(qi)流畅运行的(de)(de)高性(xing)(xing)能(neng)(neng)芯片供给有(you)限,多(duo)数企(qi)业面临模型(xing)(xing)跑得起(qi)却用不(bu)起(qi)的(de)(de)算力困境;开源(yuan)生态的(de)(de)不(bu)完善(shan)让技(ji)术迭代受限,闭源(yuan)模式下用户(hu)既难验证推理逻辑的(de)(de)可(ke)靠性(xing)(xing),也难以针对(dui)场景(jing)深度(du)调优(you);更关键(jian)的(de)(de)是,大量(liang)推理模型(xing)(xing)仍(reng)困于单一模态的(de)(de)“信息孤岛”,缺乏(fa)兼具文本、图像、视频、语(yu)音的(de)(de)综合多(duo)模态能(neng)(neng)力,难以应(ying)对(dui)真实世界的(de)(de)复(fu)杂交互(hu)需(xu)求。
但如(ru)今能同时处理文(wen)本、图像(xiang)、音频(pin)、视(shi)频(pin)、传(chuan)感器数据等多种模(mo)态信息,并进行跨模(mo)态理解(jie)与推理的多模(mo)态推理模(mo)型(xing),其重要(yao)性(xing)正随着(zhe)技术发展和应(ying)用深化愈发凸显。
这一背景下,阶跃星辰新一代多模态推理旗舰模型Step 3应运而生。 Step 3是阶跃星辰首个(ge)全尺寸(cun)、原生(sheng)多模态推理模型,兼顾模(mo)型效果与(yu)推理成本,是在(zai)模(mo)型架构创新、算法工程(cheng)协同设计上(shang)的一次(ci)大(da)胆尝试与(yu)Scale Up。Step 3采(cai)用MoE架构,总参(can)数量321B,激(ji)活(huo)参(can)数量38B。
在现场(chang),Step 3模型通过我们常见的色盲测试接(jie)受(shou)了(le)(le)感知能(neng)力考验(yan),模型准(zhun)确识别(bie)出了(le)(le)图形中隐(yin)藏(zang)的“STEP3”,并且还在推理过程中提到“它知道自己(ji)也叫Step 3,这可能(neng)是(shi)一(yi)个有趣(qu)的巧(qiao)合”。
▲色盲测试
下一(yi)个(ge)难(nan)题面临的场景更为(wei)复杂(za)。一(yi)份(fen)包含多人在微(wei)信群里(li)有讨论(lun)购买零食和酒水的聊(liao)天(tian)记(ji)录,还有一(yi)份(fen)购买的小票(piao),Step 3需要(yao)结(jie)合小票(piao)和聊(liao)天(tian)记(ji)录,最后算(suan)出群里(li)的成员如(ru)何分(fen)账(zhang)。Step 3就可以快速理清如(ru)何分(fen)账(zhang),将视觉和推理能力相(xiang)结(jie)合,最后算(suan)出每个(ge)人要(yao)出的总(zong)价格。
与人工计算(suan)结果相比,Step 3的(de)答案仅有(you)0.03元差异(yi),是由于四舍五入的(de)规则不同导(dao)致的(de)。
▲微信分账
推理时代让(rang)模型可用的(de)先决条件(jian)扩展到(dao)了(le)多模态(tai)、够聪明。
Step 3作(zuo)为(wei)多模态推理模型(xing),具备视(shi)觉感知和复(fu)杂推理能力,可(ke)完成跨领(ling)域(yu)的(de)复(fu)杂只是理解、数(shu)学与(yu)视(shi)觉信息的(de)交(jiao)叉分析、日常生(sheng)活中的(de)各类视(shi)觉分析问题等。
在智能方面,Step 3拥有强大的视觉感知和复杂推理能力,可准确完成跨领域的复杂知识理解、数学与视觉信息的交叉分析,以及日常生活中的各类视觉分析问题。Step 3在MMMU、MathVision、SimpleVQA、AIME25、LiveCodeBench(2024.08-2025.05)等榜单上取得了开源多(duo)模态推理(li)模型(xing)的SOTA成绩。

此外,Step 3还有两大亮点优势:开源和(he)成本效益高。开源毫无疑问可以(yi)帮(bang)助契合(he)和开发(fa)者(zhe)降(jiang)低使用门槛,并加(jia)速模型迭代。而成(cheng)本效益高则(ze)是考验着对模型性能与成(cheng)本巧妙平(ping)衡(heng)。
根据原理分析,Step 3在(zai)国产芯片上的(de)推理效率最高(gao)可达DeepSeek-R1的(de)300%,且对所有(you)芯片友好(hao),在(zai)基于NVIDIA Hopper架构的(de)芯片进(jin)行分布式推理时,相(xiang)较DeepSeek-R1的(de)吞吐量提升(sheng)超70%。

值得注意的(de)是(shi),这一实测结果都是(shi)在(zai)不牺牲模(mo)型激活参数量、不降低(di)注意力容(rong)量的(de)条件下实现(xian)的(de)。
随着大模型技术迈向推理时代,阶跃星辰给出了,最适合实际应用的大模型需要满足强智能、低成本、可开源(yuan)和(he)多模态四个(ge)特征。这四个(ge)维度缺一不可,因为单点能(neng)力强,无法满足用(yong)户(hu)对于模(mo)型(xing)(xing)的(de)综(zong)合需求(qiu)。唯有模(mo)型(xing)(xing)全面发(fa)展,才能(neng)让(rang)模(mo)型(xing)(xing)真正用(yong)起(qi)来。
以(yi)Step 3为代(dai)表(biao)的多模态推理(li)模型正推动(dong)单一模态大模型向(xiang)类人认知能(neng)力的方向(xiang)进化(hua),从而(er)使得(de)AI能(neng)在更(geng)为复杂的场景落地。
作为(wei)“多模态卷(juan)王”阶跃星辰在当下大(da)模型应(ying)用爆(bao)发节点交(jiao)出的(de)最(zui)新(xin)答卷(juan),它(ta)的(de)设计(ji)理念使(shi)其走(zou)向规模化应(ying)用成为(wei)可(ke)能。
究其根源,是阶跃星辰在多模态模型赛道的不断深耕。阶跃星辰成立两年多以来,已经构建起“1+N”的Step系列(lie)大(da)模型矩阵,共发布23款模(mo)型(xing)。“1”是指Step 3基(ji)础(chu)大模(mo)型(xing),“N”则为(wei)Step系列(lie)的(de)多(duo)模(mo)态(tai)大模(mo)型(xing)矩阵,广泛覆盖语音(yin)、视觉(jue)理解、图像(xiang)编辑、图像(xiang)和视频生成、音(yin)乐等领域,其(qi)模(mo)型(xing)已经多(duo)次在LMSYS、OpenCompass、MATH-Vision等国内外权(quan)威基(ji)准测试榜(bang)上(shang)位列(lie)中国大模(mo)型(xing)第一。
二、联动头部芯片天团,组建模芯创新生态联盟
与此(ci)同时(shi),多(duo)模态推理模型(xing)在(zai)实际场(chang)景中对应用适(shi)配性的(de)严苛(ke)要(yao)求,进一步强化(hua)了其与芯片(pian)深度(du)适(shi)配的(de)必要(yao)性。
在此基(ji)础上,阶跃星辰将Step 3模(mo)型对(dui)几(ji)乎所有芯片进行了适(shi)配(pei),在设计Step 3模(mo)型架(jia)构的时候(hou),就已经考(kao)虑了国产(chan)芯片的硬(ying)件特点(dian)。
其采用的策略是“内外(wai)联动”,即对内通过系统技(ji)(ji)术创新来降(jiang)低模(mo)型(xing)推理成本、发力开源,对外(wai)则深(shen)度联动(dong)芯片企业和基础设施厂(chang)商,形成全技(ji)(ji)术链条协同的底层创新模(mo)式(shi)。
多模(mo)态(tai)推(tui)理(li)(li)模(mo)型需(xu)要(yao)处(chu)(chu)理(li)(li)图像、音(yin)频(pin)、视频(pin)、点云等(deng)多种异构(gou)数据(ju),这些数据(ju)的存储格式、处(chu)(chu)理(li)(li)流程(cheng)、计(ji)算(suan)强度差异极大,对芯(xin)片的算(suan)力结(jie)构(gou)、内存带(dai)宽(kuan)、硬件加速单元等(deng)提出了远超单一模(mo)态(tai)的挑战。
而没有针(zhen)对性适配的芯片,多模(mo)态推理(li)模(mo)型要么因算力(li)不足(zu)无法(fa)落(luo)地,要么因效率太低难以商(shang)业(ye)化。
当下降低大(da)模型的(de)推(tui)理(li)成(cheng)本,已经(jing)成(cheng)为决定(ding)(ding)大(da)模型应(ying)用(yong)渗透率的(de)关(guan)键课题,其本质就是(shi)提(ti)升算力的(de)应(ying)用(yong)效率。因(yin)此,从(cong)一定(ding)(ding)程度上看,芯(xin)片适配是(shi)多(duo)模态(tai)推(tui)理(li)模型走向商(shang)业化落地的(de)核(he)心前提(ti)。
今日,阶跃星辰联合华为昇腾、沐曦、壁仞(ren)科技、燧原(yuan)科技、天数智芯(xin)、无问芯(xin)穹、寒武纪、摩尔线(xian)程、硅基流动等近10家芯(xin)片(pian)、基(ji)础设施厂商发起成立“模(mo)(mo)芯(xin)创新(xin)生态(tai)联(lian)盟”,打(da)通芯(xin)片(pian)、模(mo)(mo)型和(he)平台(tai)全链路技术。

目前,华为(wei)昇腾(teng)芯(xin)片(pian)已(yi)率先实现(xian)Step 3的(de)搭载和运(yun)(yun)行,沐(mu)曦(xi)、天数(shu)智芯(xin)和燧原(yuan)已(yi)初步实现(xian)运(yun)(yun)行Step 3。其它联盟厂(chang)商的(de)适(shi)配工作正在(zai)开展。
模(mo)(mo)型(xing)与(yu)芯片企业的(de)(de)(de)联动最(zui)直观的(de)(de)(de)优势就是,可以提(ti)升模(mo)(mo)型(xing)性能和效(xiao)率(lv),模(mo)(mo)型(xing)与(yu)硬件(jian)深度适配可以在(zai)降低资(zi)源消耗的(de)(de)(de)同(tong)时(shi)充分发挥(hui)模(mo)(mo)型(xing)性能,而这种协同(tong)研发的(de)(de)(de)新模(mo)(mo)式,正是模(mo)(mo)型(xing)、芯片互相(xiang)驱动升级形成正向循环的(de)(de)(de)必然结(jie)果(guo)。
从(cong)更长远的角度看,这可以降低成(cheng)本(ben)推动规模化商业落地,成(cheng)为(wei)打破推理(li)模型成(cheng)本(ben)居高不下桎梏的一条有效路径。
三、多模态能力触达多元智能终端,阶跃星辰全年营收冲刺10亿
在研发思路中致力(li)于让大模型真正可用的阶跃星辰,在商业(ye)化应用落(luo)地上也(ye)突飞猛进。
2025年(nian)上半年(nian),阶跃星(xing)辰的收入(ru)快速增(zeng)长,全(quan)年(nian)收入冲(chong)刺10亿元。

这是阶跃星辰将(jiang)大模型能力深度融入(ru)手机(ji)、汽(qi)车(che)以及各(ge)类IoT设(she)备和当下被称为(wei)制(zhi)造(zao)业皇冠明珠的(de)人形机(ji)器人的(de)阶段(duan)性成效,贯穿新(xin)兴产业与(yu)已拥(yong)有(you)海量用户基础的(de)赛道。
在智能终(zhong)端Agent应(ying)用(yong)侧,阶跃星辰开放平台数(shu)据显示,其上(shang)半年(nian)来(lai)自智能终(zhong)端的多模态模型调用(yong)次数(shu)和调用(yong)量(liang),环比增(zeng)长均超800%。
具体在手机方面,阶跃星(xing)辰(chen)已(yi)经和(he)超半数头(tou)部国产(chan)手机厂商达成合作,多模态(tai)能(neng)力落地荣(rong)耀、OPPO等(deng)品牌的旗舰机(ji)型(xing);汽(qi)车(che)层面,阶跃联合(he)吉利(li)推出AI智能(neng)座(zuo)舱,成功实(shi)现行业内(nei)(nei)端到端语音(yin)大模型(xing)首次量(liang)产(chan)上(shang)车(che);面向IoT终端,阶跃星(xing)辰通过生态(tai)开放的方式,与包(bao)括TCL在内(nei)(nei)的一系(xi)列IoT平台和设(she)备(bei)厂商紧密协作,推动设(she)备(bei)间的智能(neng)化升级(ji)和体验的无缝连(lian)接。
除了直接在不同终端落地的Agent,阶跃星辰还亮出了垂类Agent以适配用(yong)户更为(wei)细分的(de)应用(yong)场(chang)景。阶(jie)跃AI作为阶(jie)跃星辰基于(yu)自研模(mo)型能(neng)力(li)打造的智能(neng)助手(shou),具备(bei)文本(ben)、图像、语音等多模(mo)态交互能(neng)力(li)和推理能(neng)力(li),可(ke)以在科研场景帮助用户核查信息(xi)、视觉理解生成、视频通话等。
Agent被认为是大模(mo)型的(de)下一(yi)个焦(jiao)点(dian),其既是大模(mo)型目(mu)前应用落地的(de)绝佳载(zai)体(ti)之一(yi),同时是企业探索AGI的(de)主(zhu)要路径。从阶跃星辰的(de)布局可以看出,其已经将多模(mo)态大模(mo)型的(de)能(neng)力(li)内化到千行百(bai)业,在(zai)各(ge)类智能(neng)终端设备上落地。
在这样的(de)(de)(de)全栈布局下,阶跃星辰在基(ji)础(chu)模(mo)型、智(zhi)能终端(duan)Agent、垂类(lei)Agent领域三管齐(qi)下,成(cheng)为大模(mo)型应用落地(di)率先冲出的(de)(de)(de)一家创企(qi)。其半(ban)年时间落地(di)应用成(cheng)果已遍地(di)开发,不仅催生出众(zhong)多(duo)实际落地(di)的(de)(de)(de)智(zhi)能终端(duan)设备,更构建起(qi)健康协同的(de)(de)(de)商业模(mo)式,形(xing)成(cheng)了良(liang)性(xing)发展生态。
结语:大模型商业化落地竞速开启
随(sui)着(zhe)大模(mo)型发(fa)展迈入(ru)下半场,行业竞(jing)争的焦点(dian)已(yi)从(cong)基座模(mo)型的性能比拼,深(shen)度延伸至商业化(hua)落(luo)地的速度与(yu)质量,阶跃星辰已(yi)然趟(tang)出一条商业化(hua)与(yu)模(mo)型研(yan)发(fa)共(gong)进的路(lu)径。
阶跃超级(ji)模(mo)(mo)型+超级(ji)应用(yong)战略的双轮驱动,使其(qi)在大(da)模(mo)(mo)型下(xia)半场的竞争中占据(ju)了独特优势,模(mo)(mo)型研发为商业化提供能用(yong)、好用(yong)的技术底座,商业化落地为模(mo)(mo)型迭(die)代注入源源不断(duan)的场景数据(ju)与(yu)需求灵感,二者(zhe)协同(tong)勾勒出大(da)模(mo)(mo)型从技术创新到产业价值转化的清晰(xi)路(lu)径。