智东西(公众号:zhidxcom)
作者 | 陈骏达
编辑 | 李水青
昨晚,DeepSeek再度开创历史(shi)!
智东(dong)西9月(yue)(yue)18日报道,9月(yue)(yue)17日,由DeepSeek团队(dui)共同完成(cheng)、梁文锋担任(ren)通讯作者的(de)DeepSeek-R1推理模型研究(jiu)论文,登上了(le)国际权威期刊《自然(Nature)》的(de)封面。
DeepSeek-R1论文首次公开了仅靠强化学习,就(jiu)能激(ji)发大模型(xing)推理能力(li)的重要研究成果,启发全球AI研究者;这一模型还成为全球(qiu)最受欢迎(ying)的(de)开源推理模型,Hugging Face下载量超1090万(wan)次(ci)。此番获(huo)得(de)《自然》的认证,可(ke)谓是实至名归。
与此同时,DeepSeek-R1也是全球首个经过同行评审的主流大语言模型。《自然》在社论中高度评价道:几乎所有主流的大模型都还没有经过独立同行评审,这(zhei)一空白“终于被DeepSeek打破”。
《自然》认为,在AI行业中,未经证实的说法和炒作已经“司空见惯”,而DeepSeek所做的一切,都是“迈向透明度和可重复性的可喜一步”。

▲《自然》杂志封面标(biao)题(ti):自助——强化学习教(jiao)会大模型(xing)自我改进(jin)
发(fa)表在《自然》杂(za)志的(de)(de)新(xin)版(ban)DeepSeek-R1论文,与今(jin)年1月未经同行(xing)评(ping)审的(de)(de)初版(ban)有(you)较(jiao)大差异,披(pi)露了更多(duo)模型(xing)训练(lian)的(de)(de)细节,并正面回应了模型(xing)发(fa)布之初的(de)(de)蒸馏质疑。

▲发表在《自然》杂志的DeepSeek-R1论文
在长达64页的同行评审文件中,DeepSeek介绍,DeepSeek-V3 Base(DeepSeek-R1的基座模型)使用的数据全部来自互联网,虽然可能包含GPT-4生成的结果,但绝非有意而为之,更没有专门的蒸馏环节。
DeepSeek也在(zai)补充材料(liao)中提(ti)供了训练(lian)过程中减轻(qing)数据(ju)污染的详(xiang)细流程,以证(zheng)明模(mo)型并(bing)未在(zai)训练(lian)数据(ju)中有(you)意包含基准测试,从(cong)而提(ti)升模(mo)型表(biao)现。
此外,DeepSeek对DeepSeek-R1的安全性进行了全面评估,证明其(qi)安全性领先同期发布的前沿模(mo)型。
《自(zi)然》杂志认为,随(sui)着AI技术日(ri)渐普及,大模(mo)型厂商们无法验(yan)证的宣传(chuan)可能对社会带来真实风险。依靠独立研究(jiu)人(ren)员进行的同行评审,是抑制AI行业过(guo)度炒作的一种(zhong)有效方式。
论(lun)文链接:
//www.nature.com/articles/s41586-025-09422-z#code-availability
同行评审(shen)报告:
//www.nature.com/articles/s41586-025-09422-z#MOESM2
补充材料:
//static-content.springer.com/esm/art%3A10.1038%2Fs41586-025-09422-z/MediaObjects/41586_2025_9422_MOESM1_ESM.pdf
一、新版论文披露多个重要信息,R1安全性获全面评估
在了解新版论文的(de)变(bian)化前(qian),我们有(you)必要先回顾(gu)下DeepSeek-R1论文的(de)核心内容。
DeepSeek-R1的研究出发点,是当时困扰AI业内的一个重大问题。众所周知,推理能提升大语言模型的能力,但让模型在后训练阶段通过数据学习思维链轨迹,严重依赖(lai)人(ren)工(gong)标注(zhu),限(xian)制了可扩展性。
DeepSeek尝试通过强化学习,让模型自我演化发展出推(tui)理能力。在DeepSeek-V3 Base的(de)基(ji)础上,DeepSeek使用(yong)GRPO作(zuo)为(wei)强化学习框(kuang)架,仅使用(yong)最(zui)终预测结果与真(zhen)实(shi)答案(an)的(de)正(zheng)确性作(zuo)为(wei)奖励信号(hao),未对推理过程施加(jia)限制,最(zui)终构建(jian)出DeepSeek-R1-Zero。
DeepSeek-R1-Zero通过强化(hua)学习成功掌握了改(gai)进的推理策略(lve),倾向于生成更长的回(hui)答,每个回(hui)答中包(bao)含验证、反(fan)思和(he)探索备选方案。

▲DeepSeek-R1-Zero答题正确(que)率随着推理长(zhang)度提(ti)升,模型(xing)训练中总体回答长(zhang)度也不断提(ti)升
DeepSeek在DeepSeek-R1-Zero的基础上,采用多阶段训练结合RL、拒绝采样和监督微调,开发出DeepSeek-R1,使模型既具备强推理(li)能力(li),又能更好(hao)(hao)贴合人类偏好(hao)(hao)。此(ci)外,团队还(hai)蒸馏出小型(xing)模型(xing)并公开发布,为(wei)研究(jiu)社区提供了可(ke)用资(zi)源,推动思维链推理模型(xing)的发展与应用。
除了上述主要科研(yan)成果外(wai),在最新版的(de)论文和其他材料中(zhong),DeepSeek新增了不(bu)少补(bu)充信息,让外(wai)界(jie)更深(shen)入地了解到模型训(xun)练和运作的(de)细节(jie)。
基准测试(shi)(shi)数(shu)据污染是一(yi)个(ge)极为敏感的问题(ti)——如果厂商(shang)在训(xun)练时有意或无意包(bao)含(han)了基准测试(shi)(shi)和相关答案(an),就很(hen)有可能导致模型在相关测试(shi)(shi)上的得分异常偏高,影响(xiang)基准测试(shi)(shi)评分的公正性。
DeepSeek透露,为了防止基准测试数据污染,其已对DeepSeek-R1的预训练和后训练数据都实施了全面的去污染措施。以数学领域为例,仅在预训练数据中,DeepSeek的去污染流程就识(shi)别(bie)并删(shan)除了约六百万条(tiao)潜在(zai)文本。
在后训练阶段,数学相关的数据均来自2023年之前的竞赛,并采用与预训练相同的过滤策略,确保训练数据与评测数据完全不重叠。这些措施保证了模型评测结果能够真实反映其解决问题的能力,而非对测试数据的记忆。
不过,DeepSeek也(ye)承(cheng)认这种去污染(ran)方法无(wu)法完全防止对测试(shi)集的改写,因此在2024年之前(qian)发布的部分基(ji)准(zhun)测试(shi)仍可能(neng)存在污染(ran)问题。
DeepSeek还为DeepSeek-R1新增了一份全面的安全报告。报告提到,DeepSeek-R1在服务部署中引入了外部风险控制系(xi)统,不(bu)仅可(ke)以基(ji)于关键词匹配识别不(bu)安(an)全对话,还(hai)使(shi)用DeepSeek-V3直接进行风险(xian)审查,判(pan)断是否应拒绝响应。DeepSeek建议(yi)开(kai)发者在使(shi)用DeepSeek-R1时,部署类(lei)似的(de)风险(xian)控制系统。
在公开安全基准测试和内部安全研究中,DeepSeek-R1在大多数基准(zhun)上超过了Claude-3.7-Sonnet、GPT-4o等前(qian)沿模型。开源(yuan)部(bu)署版本的(de)安全(quan)性虽不及具备外部(bu)风险控制系统的(de)版本,但(dan)仍(reng)拥有中等(deng)水平的(de)安全(quan)保障(zhang)。

DeepSeek-R1发布之(zhi)初,曾有传闻(wen)称该模型使用了OpenAI的模型进(jin)行蒸馏,这也(ye)出现在审稿(gao)人的提(ti)问中。
对此,DeepSeek做出了正面回应,称DeepSeek-V3-Base的预训练数据全部来源于网络,反映自然数据分布,“可能包含由先进模型(如GPT-4)生成的内容”,但DeepSeek-V3-Base并没有引入(ru)在合(he)成数据集上(shang)进行(xing)大规模(mo)监(jian)督蒸馏的“冷却”阶段。
DeepSeek-V3-Base的(de)数据截止时间为(wei)2024年(nian)7月,当时尚未发布任(ren)何(he)公开的(de)先进(jin)(jin)推(tui)理模(mo)型,这进(jin)(jin)一(yi)步(bu)降低了从现有推(tui)理模(mo)型中无意蒸馏的(de)可能(neng)性(xing)。
更重要的是,DeepSeek-R1论文的核心贡献,也就是R1-Zero,不涉及从先进模型进行蒸馏。其强化学习(RL)组件是独立训练的,不依赖于GPT-4或其他类似能力模型的输出或指(zhi)导。
二、R1论文开创大模型科研新范式,《自然》盛赞其填补空白
在(zai)社论中,《自然》详细地分析了DeepSeek-R1经历完整同行评审流(liu)程,并登上期刊(kan)的价(jia)值。
大(da)模(mo)型正在迅速(su)改变(bian)人类(lei)获取知(zhi)识的(de)方式,然(ran)而,目(mu)前最主流的(de)大(da)模(mo)型都没有在研究期(qi)刊(kan)中经历过独立(li)的(de)同行评审,这是一(yi)个严(yan)重的(de)空(kong)白。
同(tong)行评(ping)审出(chu)版物有(you)助于阐明(ming)大(da)(da)模(mo)型的工作原理,也有(you)助于业内评(ping)估大(da)(da)模(mo)型的表现是否与厂商宣传的一致。
DeepSeek改(gai)变了这一现状。DeepSeek在今年2月14日将(jiang)DeepSeek-R1论文提(ti)交至(zhi)《自然》,而(er)直(zhi)到7月17日才被接收,9月17日正式发布。
在这(zhei)一过程中,有8位外(wai)部专家参与了同(tong)行(xing)(xing)评审,对这(zhei)项工作的原创性(xing)、方法和鲁棒性(xing)进(jin)行(xing)(xing)了评估。在最终发(fa)布(bu)的版本中,审稿报告与(yu)作者回复都被一并(bing)披露。
智(zhi)东西(xi)也深入研读了DeepSeek-R1论(lun)文的(de)审稿(gao)意见与(yu)作者回复(fu)。这份文件长达64页,接近论(lun)文本身(shen)篇幅的(de)3倍。

▲DeepSeek同行评审(shen)材料封面
8位审稿(gao)人共提出上百条具体意见,既包(bao)括对(dui)单(dan)词单(dan)复数(shu)等细节(jie)的(de)修改,也涵盖对(dui)论文中将AI“拟人化”的(de)警示,以及对(dui)数(shu)据污染和模型安全性问题的(de)关注。
例如,在(zai)(zai)下方修改意(yi)见(jian)中,审(shen)稿(gao)人敏(min)锐地捕捉(zhuo)到(dao)了“将DeepSeek-R1-Zero开(kai)源”这一(yi)表(biao)述的模糊性,并提(ti)醒DeepSeek,“开(kai)源”这一(yi)概念的界(jie)定(ding)仍存争议,在(zai)(zai)使用相关表(biao)述时需要(yao)格(ge)外注意(yi)。
这位(wei)审稿人还要求DeepSeek在论(lun)文中附上SFT和RL数(shu)据(ju)的(de)链(lian)接,而不仅(jin)(jin)仅(jin)(jin)是提供数(shu)据(ju)样本。

▲一位审稿(gao)人(ren)的部分修改(gai)意(yi)见
DeepSeek认真回(hui)应(ying)了(le)审稿(gao)(gao)人提(ti)出的(de)每一(yi)个(ge)问题(ti),前文提(ti)到的(de)多个(ge)章节与补充(chong)信息(xi),正是在(zai)审稿(gao)(gao)人的(de)建议下(xia)新(xin)增的(de)。
虽然DeepSeek也曾在今年(nian)1月发(fa)布DeepSeek-R1的技(ji)术报告,但(dan)《自(zi)然》认(ren)为,此类技(ji)术文档与实(shi)际情况之(zhi)间(jian)的差(cha)距可能(neng)很大。
相比之下(xia),在同行评审(shen)中(zhong),外部专家(jia)并(bing)(bing)不是被(bei)动接收信息,而是能(neng)够在独立第(di)三方(编辑)的主持和管理下(xia),通过(guo)协作提出问题,并(bing)(bing)要(yao)求(qiu)论文(wen)作者补充信息。
同行评审能够提升论文的清晰度,并确保作者对其主张作出合理的论证。这一流程并不一定会对文章内容带来重大修改,但却能增强研究的可信度。对AI开发者而言(yan),这意味着他(ta)们的(de)工作(zuo)会更为扎实,并(bing)更具说(shuo)服(fu)力。
结语:DeepSeek开源模式或成行业典范
作(zuo)为国产开(kai)源 AI 模(mo)型(xing)(xing)走(zou)向世界的(de)代表,DeepSeek-R1在(zai)全球开(kai)源社(she)区拥有极高的(de)口碑。而在(zai)本次(ci)登(deng)上《自然》杂志封(feng)面后,DeepSeek又(you)补充了这(zhei)一模(mo)型(xing)(xing)的(de)更多信息,为开(kai)源社(she)区提(ti)供了科研参(can)考、模(mo)型(xing)(xing)复现思路以及应用支(zhi)持。
《自然》杂(za)志(zhi)呼吁更(geng)多(duo)的AI公司将其模型提交给(ji)同行进行评(ping)审,确保(bao)其声明经过验(yan)证(zheng)和(he)澄清。在(zai)(zai)这一背景下(xia),DeepSeek的开源模式不仅(jin)展示了国产AI的技术实力,也有望成(cheng)为全球(qiu)AI行业在(zai)(zai)科(ke)研透明度方(fang)面(mian)的参考典范。