智东西(公众号:zhidxcom)
作者 | 陈骏达
编辑 | 云鹏
美(mei)团龙猫(mao)大模型,现在会(hui)思(si)考了(le)!
智(zhi)东西9月22日报(bao)道(dao),最近,美团(tuan)在AI开(kai)源赛道(dao)上(shang)在猛踩加(jia)速。今(jin)天(tian),在开(kai)源其首款大(da)语言模(mo)型仅仅24天(tian)后,美团(tuan)又开(kai)源了其首款自(zi)研推理模(mo)型LongCat-Flash-Thinking。
与其基础模型LongCat-Flash类似,效率也是LongCat-Flash-Thinking的最大特点。美团在技术报告中透露,LongCat-Flash-Thinking在自研的DORA强化学习基础设施完成训练,直接将训练速度提升到原来的3倍还多,增幅超过200%。该模型重点优化了形式推理和Agent推理任务,使用工具后推理效率很高,例如,可(ke)将AIME-25基准测试中的平(ping)均token消耗减少64.5%。
LongCat-Flash-Thinking在多领域基准测试(shi)中表现(xian)出不俗的(de)实力:
在通用问答、数学推理、通用推理的相关测试中,它和GPT-5-Thinking、Gemini2.5-Pro、DeepSeek-V3.1-Thinking、Qwen3-235B-A22B-Thinking-2507等基本打平;
LongCat-Flash-Thinking还在安全、形式化定理证明等领域的多项基准测试中,大幅度领先上述4款推理模型,并在权威Agent工具调用基准测试τ²-Bench中,超越除了GPT-5-Thinking外(wai)的(de)所有参评模型(xing)。

目(mu)前,LongCat-Flash-Thinking模型(xing)已经开源至GitHub、Hugging Face等平台,相关技(ji)术报告也(ye)同期(qi)发(fa)布,用(yong)户也(ye)可(ke)在(zai)体验(yan)链(lian)接中直接使用(yong)。不过(guo),在(zai)实际体验(yan)中,模型(xing)推理和回(hui)答长度往往会超出体验(yan)链(lian)接里的(de)限制,导致答案(an)不完整。

开源地址:
//huggingface.co/meituan-longcat/LongCat-Flash-Thinking
//github.com/meituan-longcat/LongCat-Flash-Thinking
体验链接(jie):
//longcat.chat/
一、靠课程学习逐步构建能力,Agent和形式化推理能力获补强
在模型预训练阶段,LongCat团队采用了课程(cheng)学习的(de)(de)方式,让模(mo)型(xing)先打基础(chu),再专项突破,最终构建(jian)出覆(fu)盖(gai)广度(du)与深度(du)的(de)(de)推理能力。
LongCat-Flash-Thinking是在LongCat-Flash的基础上训练而来的,经历了推(tui)理增(zeng)强的中期训练(lian)(Mid-training)和面(mian)向推理的有监督微调(SFT)。
研究团队(dui)特别构建了(le)一(yi)个高难度(du)的(de)推理(li)训练集,涵盖数(shu)(shu)学(xue)、物理(li)、化(hua)学(xue)及(ji)编程(cheng)问(wen)题(ti),并通(tong)过数(shu)(shu)据(ju)比例控制(zhi),确(que)保模型既能强化(hua)逻辑(ji)推理(li),又(you)不丢失通(tong)用能力。
实验表明,这一阶段显著拓宽了模型的“推理边界”:在AIME、BeyondAIME和LiveCodeBench等基准上,单步准确(que)率(lv)和高(gao)采样准确(que)率(lv)均有大幅提升。

进入SFT微(wei)调(diao)阶段(duan),LongCat-Flash-Thinking的指令(ling)遵循(xun)和专业(ye)领域推理能力得到进一步提升。这一步骤特别强调(diao)三大方向:
1、一般推理(li):LongCat团队整合跨(kua)学科高(gao)质量问题与(yu)(yu)答案,涵盖(gai)STEM、编程、通用(yong)问答以及逻辑推(tui)理,利用(yong)拒绝采样与(yu)(yu)模型评审(shen)保证训(xun)练(lian)数据(ju)的准确(que)性和挑战性。
2、形式化推理:该(gai)团(tuan)队还设计了(le)一套全新的(de)基于专(zhuan)家(jia)迭(die)代框架的(de)数(shu)据合成方法,利(li)用集成了(le)Lean4服(fu)务器的(de)专(zhuan)家(jia)迭(die)代框架,生(sheng)成经过严格验证(zheng)的(de)证(zheng)明过程,从而系统性提升模型的(de)形式化推(tui)理能力。
3、Agentic推理(li):LongCat团队提出(chu)了创新性(xing)的“双路(lu)径(jing)推(tui)理框架”。该框架能够比较模型在“有工具”和“无工具”条件(jian)下的表现,筛选(xuan)出(chu)仅依赖工具才能解决(jue)的高质量问(wen)题(ti)。
随后,系统自动合成多样化(hua)的解题轨迹(ji),从简单调用到复杂(za)多步流程,并(bing)通过严格(ge)评审确保逻(luo)辑一致性和(he)工具(ju)使用完整性。最终,轨迹(ji)被(bei)标(biao)准化(hua)并(bing)按复杂(za)度分层,用于课(ke)程训练,帮助模(mo)型在(zai)真实场景中更好地(di)学习(xi)和(he)发展稳健的工具(ju)使用能力。
这种中(zhong)期训(xun)练、推理微调(diao)的两段式体系,帮助LongCat-Flash-Thinking在(zai)推理任务(wu)中(zhong)实现性(xing)能提升(sheng),也为后续的强化学习做好准(zhun)备。
二、三管齐下优化强化学习,自研DORA框架提效超200%
强化学习中,LongCat-Flash-Thinking采用了一套“三管齐下”的方案,从系统、算(suan)法(fa)和奖励的角度(du),提升强化学习的效(xiao)率和稳定性(xing)。
在系统设计中,LongCat团队(dui)构建了名为DORA的(de)分布式RL框架,这是RL训练(lian)的(de)基石。DORA支持(chi)异步训练(lian)与灵(ling)活的(de)加(jia)速器(qi)调度,既保证稳定性(xing),又提升效率(lv)。
DORA通过流(liu)式(shi)架构让已完(wan)成(cheng)的响应(ying)(ying)立即进入训练,而(er)不(bu)(bu)会被(bei)最长输出拖慢;通过多版(ban)本策略保证同一响应(ying)(ying)由同一模型版(ban)本完(wan)成(cheng),避免推理(li)片段间的不(bu)(bu)一致(zhi);再结合弹性角色(se)调度(du),让不(bu)(bu)同算(suan)力设备可灵活切(qie)换(huan)角色(se),实现(xian)近乎零闲置。
这一机制在大规模算力集群上展现了较高的效率:在数万张加速卡上,LongCat-Flash的RL训练速度达到传统同步方(fang)式(shi)的(de)3倍以上,FLOPs(Floating Point Operations,浮点运算数)的投入约为预训练(lian)阶段(duan)的20%。
算法(fa)层面,团队则对经典的PPO方法(fa)进行改良(liang)。异步训(xun)练常因推理引擎(qing)与训(xun)练引擎(qing)的数值差异,或因旧版本策(ce)略(lve)生成(cheng)的数据(ju)过(guo)多而(er)导致模型收敛不稳。
为(wei)此,研究(jiu)人员引入了截断重要性采样来缓(huan)解引擎差(cha)异带(dai)来的误(wu)差(cha),并设(she)计了裁剪机制,对正负样本分别设(she)置不同(tong)阈值。这些细节调整(zheng),大大提高了推理任务下的稳定性。
奖励机制是RL的方向盘。对于写作、问答等无法直接验证的任务,团队训练了判别(bie)式(shi)奖励模(mo)型,基于人(ren)机联合标(biao)注数据,学会判断优劣偏(pian)好。
而在数学与编程等可验证场景,则引入了生成式奖励模型(GenRM),它不仅能判(pan)断对错,还能给出推理链路,做到有理有据。在编(bian)程任务中,团队还搭(da)建了分(fen)布式沙箱(xiang)系统,支(zhi)持(chi)数百(bai)万次并发代码执行,覆盖20多(duo)种编(bian)程语言。
最后,LongCat团队提出了一个三阶段的训练配方:领域(yu)平行训练(lian)、模型融合、通用RL微调。LongCat团队先分别训练数学、编程、智能体等专家模型,再(zai)通过参数融合技术合并为统一(yi)大模型,最后用(yong)多(duo)样化(hua)(hua)数据进行通用(yong)微调,避免融合后的性能退化(hua)(hua),确保安全(quan)性、泛(fan)化(hua)(hua)性和实(shi)用(yong)性。

▲融(rong)合后的模(mo)型性能优于(yu)专家模(mo)型
三、MATH-500得分接近满分,用上工具后性价比更高
LongCat-Flash-Thinking在多领(ling)域的(de)基(ji)准测试中表(biao)现出色。
在通用能力上,LongCat-Flash-Thinking在MMLU-Redux上拿下89.3%的(de)成绩,与业内(nei)多款顶级开源模型处在同(tong)一水准,但(dan)与OpenAI-o3相比(bi)仍有(you)差距。
数(shu)学(xue)推理是(shi)该模(mo)型的亮点之一。其在MATH-500中取得99.2%的高分(fen),几乎达到满(man)分水平。在(zai)更具挑战性(xing)的AIME与HMMT等竞赛级任务中(zhong),同样(yang)展现(xian)出接近(jin)甚至(zhi)超越GPT-5与Qwen3的表现(xian),凸显其(qi)复杂多步推(tui)理的强大能(neng)力。

在(zai)逻辑(ji)与一般(ban)推理(li)方面,该模型在(zai)ARC-AGI上达(da)到50.3%,超(chao)过了OpenAI-o3与Gemini 2.5-Pro。同时(shi),它在(zai)解谜(mi)任务ZebraLogic上得分高达(da)95.5%,并在(zai)数(shu)独测试Sudoku-Bench上远超(chao)大(da)部分模型,显示出较强(qiang)的结构(gou)化(hua)推理(li)能力。
编程能力方面,LongCat-Flash-Thinking在(zai)动(dong)态编程测试LiveCodeBench中取(qu)得(de)79.4%的分数(shu),紧追GPT-5,远超(chao)开源同类(lei)模(mo)型。
值得(de)注意的是,LongCat-Flash-Thinking模型在工具增强(qiang)推理能力上(shang)表现出色。例如,它在模拟预定飞机票的τ²-Bench-Airline中,实(shi)现67.5%的最佳成绩,并(bing)在SWE-Bench、BFCL等任务上(shang)保持较强(qiang)的竞争力。

启用外部工具后,其在AIME-25基准测试中的准确率保持不变,但平均token消耗减少近65%,验证了(le)智能(neng)体系统在(zai)效率与性能(neng)间实(shi)现(xian)平衡。

在定(ding)理(li)证明领域,LongCat-Flash-Thinking在MiniF2F测试中得分达67.6%,比(bi)次优模型高出18%,奠定(ding)了其在形式(shi)化(hua)数学推理(li)上的领先地(di)位。
最后,在安(an)全(quan)性(xing)上,LongCat-Flash-Thinking在有害内容(rong)、犯罪、虚(xu)假信息及(ji)隐私四类风(feng)险测试中均拿下安(an)全(quan)性(xing)最高分。
结语:切入真实场景,美团探索推理大模型落地路径
LongCat团(tuan)队称(cheng),凭借LongCat-Flash-Thinking的开源,他们(men)希望(wang)进(jin)一步推动高效RL训(xun)练、原生Agent推理等(deng)方面的研究(jiu)。
从论(lun)文的技术(shu)细节中(zhong),我(wo)们(men)也能(neng)看到,LongCat有针对性地提升了模(mo)型在工具使(shi)用、指(zhi)令遵循和(he)安全性等方(fang)面的表现(xian)。
结合美(mei)团(tuan)最近(jin)在面向(xiang)消费者的(de)Agent产(chan)品(pin)、AI搜索产(chan)品(pin)等(deng)领域的(de)动态,不难预见,这些新模型(xing)或将针(zhen)对性地服(fu)务(wu)于美(mei)团(tuan)自身业务(wu),带来更智能(neng)的(de)用(yong)户体(ti)验。