智东西(公众号:zhidxcom)
作者 | 陈骏达
编辑 | 云鹏
智东西(xi)9月1日报道,昨(zuo)日,美(mei)团(tuan)发(fa)布(bu)了其首款开源大模型LongCat-Flash,这是一(yi)款拥(yong)有5600亿个总参数的MoE(混合专(zhuan)家)模型。
推理速度是这一模型最大的特点之一。美团称,这一模型具备快捷连接架构,扩展了计算-通信重叠窗口,实现了每秒超过100个token的推理速度,理论每token输出时间相比DeepSeek-V3降低近50%。
智东西(xi)的实测也(ye)印证了这点:我们要求其输(shu)出大约100个token的内容(rong),除去首token延时后,输(shu)出速度确实在100 tokens/秒左右。

LongCat-Flash目前暂时不支持文件、图(tu)像等多(duo)模态(tai)内容的上传(chuan)。网页端内,提供了联网搜索功能,但深度思考功(gong)能显示为“敬请期(qi)待”的状态。
在今年5月的财报电话中,美团创始人兼CEO王兴已经透露了LongCat模型的更多信息,他称,“增强后的模型(指LongCat)现在可以在(zai)推理和非推理模式之间(jian)无缝(feng)切(qie)换”,性能接近GPT-4o。王兴还在电话会议中定调称,美团在AI领域的战略是主动进攻,而不是被动防(fang)守,其AI战(zhan)略包(bao)含工作中的AI、产品(pin)中的AI和自研大语言模型。
另据公众号01 Founder爆料,经过01 Founder与多方信源的交叉确认,LongCat-Flash的训练并非在英伟达GPU上完成,在其官方技术报告中,美团使用了“数万个加速卡”的模糊表述,由于一些原因,该硬件厂商的具体名字不(bu)方(fang)便透露。不(bu)过(guo),美团对具体使用何种GPU尚无官方(fang)信息放出。
根据美团龙猫团队分享的技术报告,LongCat-Flash采用了创新的MoE架构,引入零计算专(zhuan)家,减(jian)少了在低难度token上浪费的计算资源,从而提(ti)升推理效(xiao)率。
与DeepSeek-V3.1、Kimi-K2、Qwen3 MoE-2507等头部开源模型相比,LongCat-Flash在通用领域、编程等场景的能力还有一定差距,但在Agentic工具调用、指令遵循等(deng)场(chang)景中,LongCat-Flash达到了开源(yuan)模型SOTA的水准。

这一(yi)(yi)模型已经上线(xian)Hugging Face、GitHub等开(kai)源平台,技术报告同步发布(bu)。同时(shi),美团(tuan)也提供了LongCat-Flash模型的网(wang)页(ye)版体(ti)验链接,智东西第一(yi)(yi)时(shi)间(jian)对(dui)其能力进行了体(ti)验。
Hugging Face地址:
huggingface.co/meituan-longcat
GitHub地址:
github.com/meituan-longcat/LongCat-Flash-Chat
技术报告链接:
github.com/meituan-longcat/LongCat-Flash-Chat/blob/main/tech_report.pdf
网页版:
longcat.ai/
一、锐评外卖大战阶段性战况,但算不清小学数学
智东西对(dui)LongCat-Flash的(de)数学、编(bian)程、搜索、常识(shi)等能(neng)力(li)进行了(le)体验。LongCat-Flash介绍,自己的(de)知识(shi)截止(zhi)时间为(wei)2024年6月,在不(bu)开启联网(wang)的(de)情况下,它对(dui)之后(hou)发(fa)生的(de)事情并不(bu)了(le)解(jie)。

当(dang)被问及(ji)腾讯元(yuan)宝这一AI工具的(de)(de)(de)开发(fa)者是谁时(shi),LongCat-Flash已经无法给(ji)出正确(que)答案(an),它称元(yuan)宝是美团(tuan)开发(fa)的(de)(de)(de)。元(yuan)宝的(de)(de)(de)发(fa)布(bu)时(shi)间为(wei)2024年5月30号,刚好卡在其(qi)知识(shi)截(jie)止时(shi)间的(de)(de)(de)边界。

紧接着,我们让LongCat-Flash完成联网搜索,整合信息并输出研报这一常见的工作流,使用的案例是最新的“外卖大战”,要求LongCat-Flash搜索美团(tuan)、阿(a)里和京东三家企业的最(zui)新财报,并对“外卖大战”做(zuo)一个阶(jie)段(duan)性评(ping)估。
LongCat-Flash仅搜索了10个网(wang)页(ye),与其他大模型相(xiang)比数量较少(shao)。同时(shi),其信源构成较为单一,主要来(lai)自百家号,缺(que)少(shao)对权威(wei)媒(mei)体、公(gong)司官(guan)网(wang)等信源的覆盖,在明确要求其查询(xun)公(gong)司官(guan)网(wang)后,也未(wei)能在引用链接中(zhong)看到相(xiang)关网(wang)页(ye)。
其引用的财报数据准确,分析部分基本符合业内对阿里、美团、京东三家外卖大战的主流观点。LongCat-Flash的结论中更看好阿里,不过并未提出过多新见解。

在9.8-9.11这(zhei)类(lei)大模(mo)型容易“翻车”的简单算数上(shang),LongCat-Flash未(wei)能幸免。它很快给(ji)出了答案,但结(jie)果明显错(cuo)误。可以看(kan)到,模型没有自主验证(zheng)结(jie)果的准(zhun)确性,更像是“拍脑门(men)”给(ji)出了答案。

在计(ji)算利息这类更为场景化的数学(xue)题(ti)中(zhong),LongCat-Flash能给出更为全面的分析和(he)解题(ti)过(guo)程,并最终得出正确答(da)案。

通用知识场景中,我们让LongCat-Flash在未开启联网搜索的(de)情况(kuang)下,解释了“为什(shen)么天空(kong)在白天是蓝色的(de),而在日落时会变红?”这一现象(xiang)。
LongCat-Flash的解释分为三(san)个部分,不仅提供了对白天(tian)、日落(luo)时(shi)(shi)天(tian)空颜色的解释,还(hai)补充(chong)了日出时(shi)(shi)颜色与(yu)前者的区别。其引用的理论(lun)准确,还(hai)能用表格清晰呈现,并主(zhu)动(dong)提供了参考科普资料。

在(zai)编程场景,我们(men)让LongCat-Flash打(da)造(zao)一个(ge)以(yi)龙猫为(wei)主题的小游(you)戏。模(mo)型能(neng)按照要求在(zai)单一HTML网页中实现(xian)游(you)戏功能(neng),但是游(you)戏机制设计(ji)得(de)不合(he)理,导致可玩性(xing)一般。

二、采用新颖MoE架构,给专家合作搭建“捷径”
技(ji)术报告中(zhong),美团分(fen)享了(le)LongCat-Flash在模型架构设计和多阶段训练流水线(xian)的更(geng)多细节(jie)。
LongCat-Flash采(cai)用了一(yi)种新颖的MoE架构,这(zhei)是模型(xing)实现较(jiao)高推理效率的核(he)心。

这一架构的(de)主要模块如下:
1、零计算专家(zero-computation experts)
在下一个(ge)token预(yu)测任(ren)务中(zhong),本(ben)身就存在计算(suan)负(fu)载(zai)的(de)差异性(xing),困难的(de)token(例(li)如推理复杂或(huo)语境模(mo)糊的(de)部分)需要更多算(suan)力才能预(yu)测准确(que),简单的(de)token(如常(chang)见词(ci)或(huo)模(mo)式化结构(gou))几乎不需要多少计算(suan)。
LongCat-Flash拥有一种(zhong)动(dong)态算(suan)力资源分配(pei)机制,会(hui)将部(bu)分相(xiang)对简(jian)单(dan)的(de)token交给(ji)零计算(suan)专家处理。这(zhei)些(xie)专家的(de)特点是直接把输入原样输出,不(bu)做任何计算(suan),因(yin)此(ci)不(bu)会(hui)额外增加(jia)计算(suan)成本。
每个token的激活专家数量会因上下文而异,模型因此能对重要token分配更多算力,对简(jian)单token分配更少(shao)算力,从而在相同的算力预算下,获得更好的性能(neng)。
为了让模型真正学会这种“因上下文而异”的计算分配,必须对零计算专家的平均使用比例进行(xing)细粒(li)度控制。否则,模型可能(neng)会(hui)过度依赖普通专(zhuan)家(jia)(jia),而忽(hu)视(shi)零计算(suan)专(zhuan)家(jia)(jia),导致资源利(li)用效率低下。
LongCat-Flash给每个专家引入一个专家偏置项(bias),根据其近(jin)期(qi)使用情况动态调整(zheng)路由分(fen)(fen)数。这些(xie)偏置不(bu)影(ying)响语(yu)言模型的主要训(xun)(xun)练目标,仅(jin)用于保持计算资源分(fen)(fen)布的均(jun)衡。同时(shi),LongCat-Flash还(hai)通过负(fu)载均(jun)衡控制,确保了MoE模型的高效训(xun)(xun)练。
2、快捷连接架构MoE(Shortcut-Connected MoE,ScMoE)
在大规(gui)模MoE模型中(zhong),通信开销仍是主要瓶颈。传统的执行(xing)方式下,专(zhuan)家(jia)并行(xing)需要严(yan)格(ge)的顺序流程:必须(xu)先完成一次全局通信,将token路由到对应的专(zhuan)家(jia),然后(hou)才能开始计算。这种通信延迟会(hui)导致(zhi)设备利(li)用(yong)率(lv)不足,从(cong)而限制整(zheng)体系统吞吐量。
共(gong)享专家架(jia)构尝试通(tong)过将通(tong)信与单个专家的(de)计算重叠(die)来缓解上述(shu)问题(ti),但由于单个专家的(de)计算窗口太小,效率提升有(you)限。
为突破这一限制,美团提出了快捷连接架构MoE,在层(ceng)与(yu)层(ceng)之(zhi)间(jian)引入跨层(ceng)的捷径(jing)(Shortcut),重新排序执(zhi)行流程。这一创新使得前(qian)(qian)一层的(de)稠(chou)密计算能(neng)够与当前(qian)(qian)MoE层的(de)分发/聚合通信并行执(zhi)行,形成比共享专家更大(da)的(de)重叠窗口。
测(ce)试(shi)显示,ScMoE与非ScMoE基线模型(xing)的训(xun)练(lian)损失曲线几乎(hu)相同,说明这(zhei)种重(zhong)排不会(hui)损害模型(xing)性能(neng)。

同时,ScMoE带来显著的(de)效率提(ti)升,更(geng)大的(de)重(zhong)叠(die)(die)窗(chuang)口使得前一层(ceng)计算可以(yi)与当前MoE通信阶(jie)段完(wan)全并行,提(ti)升训练效率。推(tui)理(li)过(guo)程中,ScMoE启用(yong)单(dan)批次重(zhong)叠(die)(die)流水线,使得理(li)论每token输(shu)出时间相(xiang)比(bi)头部模型(如DeepSeek-V3)降低近(jin)50%。
同(tong)时,它还(hai)支持不同(tong)通(tong)信模式并(bing)行(xing):节点内(nei)的(de)张量并(bing)行(xing)通(tong)信(通(tong)过NVLink实现)与节点间的(de)专家并(bing)行(xing)通(tong)信(通(tong)过RDMA实现)可以完(wan)全重叠,最(zui)大化网络利用率。
3、可扩展的方差对齐设计
随着模型规模的扩大,一些在小规模下表现良好的架构可能变得次优,导致模型性能不稳定。通过实验和理论分析,LongCat-Flash团队发现模块内部的方差不匹配是造成(cheng)这种问题(ti)的关(guan)键因素。
为此,他(ta)们提出了针对MLA(Multi-head Latent Attention,多头注意力)和MoE模块(kuai)的方(fang)差(cha)对齐方(fang)法,通(tong)过引入了两个尺度(du)修正(zheng)因子和专家初(chu)始化(hua)的方(fang)差(cha)补偿(chang),以提升(sheng)模型可扩(kuo)展(zhan)性(xing)和稳(wen)定(ding)性(xing)。
三、模型从半规模版本扩展而来,Agent能力突出
在模(mo)型扩(kuo)(kuo)展与训练策略上,LongCat-Flash构建了一个完整的稳(wen)定性与扩(kuo)(kuo)展性框架。
LongCat-Flash团队没有直接在(zai)(zai)数(shu)千(qian)亿参数(shu)的模(mo)(mo)型上(shang)反复试错,而是采用(yong)了(le)“以小推大”的策略:先在(zai)(zai)一个小规模(mo)(mo)的模(mo)(mo)型上(shang)系统(tong)地搜索学(xue)习率、初始化(hua)方差等参数(shu),然后通过理论推导的规则将这些最佳配置(zhi)迁(qian)移到(dao)大模(mo)(mo)型中。这种方法(fa)既节(jie)省了(le)大量算力(li),又能保证超参数(shu)在(zai)(zai)大模(mo)(mo)型中依然合适。
其次,在模型初始化上,团队通过“模型增长(zhang)”的方式,让训练过程(cheng)更加平稳。该团队先(xian)训(xun)练(lian)了一(yi)个“半规模(mo)(half scale)”的(de)模(mo)型,等(deng)它收敛到一(yi)定程度后(hou),再把(ba)它扩展成完整的(de)大模(mo)型继续训(xun)练(lian)。
新的(de)大模型(xing)虽(sui)然在最初会出现轻(qing)微的(de)波动,但(dan)很快就能(neng)进入稳定收敛状态(tai),最终(zhong)表现也明显优于完全随机初始(shi)化的(de)做法。
为了(le)进一步保证(zheng)训练过(guo)程的稳(wen)定性,LongCat-Flash还(hai)配备(bei)了(le)一套多维(wei)度的稳(wen)定性方案。
在路由层(ceng)面,控(kong)制了(le)不(bu)同专家的负载分布,避免出(chu)现有(you)的专家过度(du)繁忙、有(you)的却长(zhang)期(qi)闲(xian)置的情况。
在激活层面,LongCat-Flash引(yin)入了类似“保(bao)险(xian)丝”的机制,对异(yi)常大的激活值施(shi)加轻微(wei)约(yue)束,从而(er)防止训练突然崩(beng)溃。
在(zai)优(you)化(hua)器层面,LongCat-Flash团队对Adam的参数(shu)做(zuo)了细致调整,使其在(zai)大规模训练场景(jing)下(xia)依然数(shu)值(zhi)稳定。三方面配合,使模型在(zai)长时间训练中都能(neng)保持平(ping)稳,不(bu)会出现不(bu)可恢复的损(sun)失峰值(zhi)。
在训练可靠性上,该团队还(hai)特别强(qiang)调了可复现(xian)性和错误检测。这种严格的精度控制不仅(jin)保证了实验可复现(xian),还(hai)能(neng)帮助(zhu)快速发现(xian)和定位所谓的“静默数据(ju)损坏”(SDC),避免错误在大规模分布(bu)式(shi)系统中被掩盖。
通过这些设计(ji),LongCat-Flash不(bu)仅能(neng)在(zai)数万张加(jia)速卡上稳定训练,还(hai)能(neng)保证训练结(jie)果可(ke)控(kong)、可(ke)靠,真正实现了在(zai)超大规模模型上的稳健扩展。
在训练流程上,模型采用多阶段管线(xian)。首先,通过双阶段预训(xun)练数(shu)据融合(he),逐步提升推理密集型(xing)数(shu)据(STEM知(zhi)识与代码)的比例,构建(jian)出更适合(he)后训(xun)练的基础模型(xing)。
在中(zhong)期(qi)训练中(zhong),模型的上下(xia)文被扩展至128k tokens,并利用(yong)合成数据进一步增强(qiang)推理与(yu)编程能(neng)力。
在(zai)后训练阶(jie)段(duan),LongCat-Flash团队针对(dui)推理、编程和代理任(ren)务分别设计(ji)了数(shu)据与方(fang)法(fa),尤(you)其是(shi)提出多Agent合成框架,从(cong)信息(xi)处(chu)理、工(gong)具复杂度、用(yong)户交互(hu)三方(fang)面(mian)生成高难度任(ren)务,以锻炼模型(xing)的Agent能(neng)力。
在训(xun)练基础设施方面,团队(dui)进行了内核(he)优化、分布式并行策略设计以及监控与(yu)容错机制(zhi)的开发,使得模型能(neng)在数(shu)万张加速卡上稳(wen)定训(xun)练。
结合计算与通信编排、推测解码、KV缓存优化、量化与调度优化,模型(xing)在推理中实现了每秒超100 tokens的吞吐,并将成(cheng)本控(kong)制在0.7美元(yuan)/百(bai)万tokens(约合人民(min)币5元(yuan))。
LongCat-Flash团队(dui)在30项基(ji)准(zhun)测试上评估了模(mo)型(xing)的能力,可以看到,Agent任务是这一模(mo)型(xing)能力的“长板”,相较DeepSeek-V3.1、Qwen3 MoE-2507和Kimi-K2等国(guo)产(chan)开源(yuan)有明显优势,但(dan)在编程、数(shu)学、推(tui)理等方面还有提(ti)升空间。
结语:主动进攻的美团,要打造AI原生产品
LongCat-Flash技术团队透露(lu),此次开源,他(ta)们旨在推动高效MoE架(jia)构、高质(zhi)量数据策(ce)略以及自(zi)主Agent模(mo)型的相关研究,促进社区在大型语言(yan)模(mo)型领域的创新。
财(cai)报电(dian)话(hua)中,美(mei)团透(tou)露,已经在利(li)用AI优化现有产品,并(bing)打(da)造(zao)全新的AI原生产品,如AI运营(ying)助(zhu)手(shou)(shou)等、消费者AI助(zhu)手(shou)(shou)等。未来,美(mei)团在大模(mo)型(xing)领域的进展(zhan),值得持续关注。