智东西(公众号:zhidxcom)
作者 | 王涵
编辑 | 漠影
强(qiang)化学(xue)习(xi)是大语(yu)言模型解锁关键能(neng)力的核心技(ji)术,随着技(ji)术迭代(dai),强(qiang)化学(xue)习(xi)训练的算力需(xu)求呈爆炸式增长,然而,强(qiang)化学(xue)习(xi)训练规模化方(fang)面长期缺乏科学(xue)方(fang)法论。
智东(dong)西10月24日消息,10月17日,Meta发(fa)布了一篇(pian)名为《The Art of Scaling Reinforcement Learning Compute for LLMs》的(de)论文。
论文就聚焦大语言模型(LLMs)强化学习(RL)训练的规模化问题,通过消耗了超40万GPU小时算力的实验,提出了可预测的强化学习规模化框架与实用方案“ScaleRL”。

研究发现,ScaleRL能够系统性地利用小规模消融实验来预测更大规模下的性能表现,具有明显的可预测能力。
ScaleRL在数学与代码的联合训练为两个领域分别构建了清晰且平行的幂律趋势,且在延长训练后,实际性能曲线仍与外推曲线保持一致,具有较强的多场景适配能力。
目前(qian),该(gai)研(yan)究的(de)核心实(shi)验数(shu)据与S型曲线(xian)拟合(he)的(de)代码库已经全部开(kai)源。
开(kai)源地址:
GitHub://github.com/devvrit/ScaleRL-Curve-Fitting
论(lun)文地(di)址:
arxiv.org/abs/2510.13786
一、背景:强化学习训练算力需求爆炸式增长,但缺少方法论
强化学习是(shi)解锁大语言模(mo)型关键(jian)能(neng)(neng)力的核心技术,从(cong)测试(shi)时推理(li)到智能(neng)(neng)体交(jiao)互(hu),其性能(neng)(neng)直接决定模(mo)型的核心竞争力。
然而,随着技术迭代,强化学习训练的算力需求呈爆炸式增长——Deepseek-R1-Zero的强化学习训练消耗10万H800 GPU小时,OpenAI从o1到o3的强化学习算力投入更是增长超10倍。
与算力激增形成鲜明对比的是,行业在强化学习训练规模化方面长期缺乏科学方法论。目前多数企(qi)业和机构的(de)(de)强化(hua)学习训练还停留在“凭经验调参、靠堆算(suan)力试错”的(de)(de)阶段,既没有成熟的(de)(de)算(suan)力-性能评估体系,也缺乏明确的(de)(de)设计选择指导(dao),导(dao)致大量(liang)算(suan)力被浪费。这(zhei)种“粗放(fang)式投入”不仅推高研发成本(ben),更严重制(zhi)约了学术社区的(de)(de)参与度和行业整体进展。
正是这(zhei)一(yi)核(he)心痛点,促使(shi)Meta团队(dui)启动了(le)这(zhei)项(xiang)大规模(mo)研(yan)究。研(yan)究借鉴预训(xun)练(lian)领域成熟的“缩放(fang)定律”,目标(biao)为强化学习训(xun)练(lian)建立可预测的算力(li)-性能关系(xi)框架(jia)。
整个研究累计投入超40万GPU小时的算力,覆盖数学推理等典型任务,最终提出一套完整的解(jie)决方案。
二、核心突破:基于S型曲线提出RL算力-性能预测模型
这个研究最引人注目的突破,就是提出了基于S型(Sigmoidal)曲线的RL算力-性能预测模型。
区别于预训练常用的幂律模型,该曲线能精准捕捉强化学习训练“低算力缓慢增长-中算力快速提升-高算力饱和”的客观规律,通过三个关键(jian)参数构(gou)建起量化评估体(ti)系。该模型的核心公式(shi)为:

其中(zhong),A代表渐(jian)近(jin)性(xing)能(neng)上限,即高算力下(xia)模型能(neng)达(da)到的(de)性(xing)能(neng)天花板(ban);B为缩放(fang)指数,直(zhi)接反映算力效率,数值越(yue)大效率越(yue)高;C则是性(xing)能(neng)达(da)到总增益50%时(shi)所(suo)需的(de)算力,体现中(zhong)期性(xing)能(neng)达(da)成速(su)度。

Meta研究团队通过超40万GPU小时实(shi)验,对RL训练(lian)的设计选择进行消融,提炼出(chu)3条核心原(yuan)则:
1、性能天花板(A)受(shou)损失函数、模型精度等关键设计(ji)影响;
2、多数(shu)常见设(she)计仅影响算力效率,不(bu)改(gai)变(bian)性能(neng)上限;
3、稳(wen)定方案的缩放轨(gui)迹可通过(guo)小(xiao)算(suan)力实验外(wai)推。
基于以上原则,Meta研究团队整合(he)实验中最优设计构建(jian)了一套最优配置体系ScaleRL。
ScaleRL采(cai)用PipelineRL异步框架提升效率,选(xuan)用CISPO损失函(han)数增强鲁棒(bang)性,采(cai)用FP32精度(du)消除数值(zhi)偏差,再配(pei)合(he)零方差过(guo)滤与自适应(ying)prompt过(guo)滤优(you)化数据质量(liang),最后通过(guo)强制中(zhong)断实现稳定(ding)的长度(du)控制。
三、ScaleRL实测:具有可预测性和多场景适配能力
ScaleRL这一模型的最大价值在于“可预测性”。以(yi)往要知道高算(suan)力下的训练效(xiao)果,必须投入(ru)完整训练,现(xian)在(zai)通过小(xiao)规模低算(suan)力实验拟合曲线(xian),就(jiu)能(neng)精准外推高算(suan)力表(biao)现(xian)。
以某8B模型训练为例,仅用(yong)前8000 GPU小时(shi)的数据拟(ni)合(he)曲线,ScaleRL就可以外推16000 GPU小时(shi)的性(xing)能(neng),且误差极小,可大(da)幅(fu)降(jiang)低研发试(shi)错成本。
为验证模型可靠性,团队还进行了大量消融实验。结果显示,对于ScaleRL等稳定方案,小算力实验外推结果与实际训练高度吻合。

更(geng)值得(de)关注的是ScaleRL的多场(chang)景适配(pei)能力。在更(geng)大(da)批次(ci)(2048)、更(geng)长序列(32768 tokens)、多任务(数学+代码)及更(geng)大(da)模型(MoE)等(deng)场(chang)景下(xia),该方案均(jun)能保持可预(yu)测(ce)的缩(suo)放轨迹。

从研究数据上看,研究团队在独立同分布验证数据集上对S型曲线进行拟合,对比了DeepSeek(GRPO)、Qwen-2.5(DAPO)、Magistral和Minimax-M1等常用训练方案,并与ScaleRL进行对比。ScaleRL以0.61的渐进奖(jiang)励值超(chao)越其(qi)他(ta)训(xun)练(lian)方(fang)法。

此外,研究还提炼出关键的稳定性预警指标——生成截断率。实验发现,当训练中的生成截断率超过10%时,模(mo)型极易出现性能崩(beng)溃。
而ScaleRL通过强制中断等长度控制设计,能将截断率长期稳定在5%以下,为大规模训练(lian)的稳定性提供了(le)可靠保障。
结语:Meta的研究为强化学习训练规模化提供新突破
Meta团队(dui)超40万GPU小时的(de)实验投入,最终凝结为(wei)一套可预测(ce)、高适配的(de)规模化(hua)解决(jue)方(fang)案,无疑为(wei)大语(yu)言模型(xing)强化(hua)学习训练(lian)规模化(hua)提(ti)供(gong)了突(tu)破依据(ju)。
为推动技术落(luo)地,Meta团队不仅公开(kai)了研(yan)究的核(he)心实验数据,还开(kai)源了S型(xing)曲线拟合的极简代(dai)码(ma)库(ku),为全(quan)球AI研(yan)发(fa)者(zhe)提供直接的技术工具。
这些成(cheng)果(guo)连同开(kai)源的(de)拟合代码库,为行业降本增(zeng)效提供了(le)支撑,也降低了(le)学术社(she)区(qu)参与大规模强化学习研究的(de)门(men)槛。