2026美加墨世界杯(中国) 当SFT遇上RL：基于样本学习阶段的动态战术优化机制

发布日期：2026-05-15 22:18 来源：未知作者：admin 浏览次数：

当年一段工夫里，在围绕大模子推理才调增强的磋议中，SFT 和 RL 是两类中枢后查验范式 —— 前者踏实拘谨快，能高效领受高质地推理数据；后者更具探索性，有望推动模子终了复杂推理和漫步外泛化。

但在骨子查验中，这两种信号却难以灵验交融，现存使命大多仅停留在 "把两个 loss 混在沿途" 的层面。

为应付这一挑战，磋议团队提议了DYPO（Dynamic Policy Optimization）动态战术优化体式。

中枢想考在于：既然 SFT 和 RL 的学习信号统计性质自然不同，长入优化要如何作念，才能既保留监督学习的踏实性，又不就义强化学习的探索才调？

△ 图 1：DYPO 的举座框架

如图 1，模子会先字据一组 rollout 的成果判断样本所处的学习阶段，再决定它应该走监督旅途、强化学习旅途，照旧暂时跳过。

SFT 和 RL 为什么很难实在协同

若是把大模子后查验比作"教训生作念题"，SFT 和 RL 的特点各异便一目了然。

SFT更像淳厚平直讲尺度谜底。它的优点是学得快、过程稳、拘谨也更容易放胆，但问题在于，学生很容易学成"会按套路作念题"，一朝题目略微变形，就可能迷糊泛化才调。

RL更像让学生我方反复尝试，再字据得分不休修正战术。它的优点是更有探索性，更可能逼着模子从"记着解法"走向"学会推理"，但时弊相似昭彰：查验过程中波动更大，奖励一朝寥落，模子就很容易学偏，致使不踏实。

从表面层面看，这背后对应着典型的偏差—方差矛盾：

SFT：低方差，但高偏差。SFT 的梯度来自静态高质地数据，更新踏实、噪声小，却自然偏向拟合示范漫步，压缩模子探索空间；

RL：低偏差，但高方差。RL 通过奖励启动试错，更接近 "灵验战术优化"，但受采样立时性和奖励寥落性影响，梯度方差高、查验易波动。

问题也正出在这里。好多长入查验体式自然同期用了 SFT 和 RL，但默许通盘样本都值得用归并种表情行止理。

但骨子情况中，不相似本的学习信号存在权臣各异：有些问题模子还是会了，屡次 rollout 都能答对，这类样本络续查验，收益频频很有限；有些问题模子现时所有不会，屡次 rollout 全部失败，这时平直作念 RL 频繁也拿不到什么灵验奖励；

实在最值得优化的，反而是那些"还是会少量，但还不踏实"的样本。它们既阐发模子还是摸到了门槛，又保留了区分正确轨迹和造作轨迹的空间。

因此，这项使命想措置的，并不是"要不要把 SFT 和 RL 放在沿途"，而是更进一步：不同学习阶段的样本，到底应该怎样被优化，才能在踏实和探索之间找到更合理的均衡。

△ 图 2：SFT 与 RL 的偏差—方差矛盾

SFT 更稳，但偏差更大；RL 偏差更低，但查验波动昭彰更强。

DYPO 如何同期处理偏差和方差问题

基于上述想考，本文提议了Dynamic Policy Optimization ( DYPO ) 。它的中枢想想并不是再堆一个更复杂的查验过程，而是先字据 rollout 成果判断样本所处的学习阶段，再去匹配最合适的优化旅途。

具体而言，DYPO 会让现时战术为每个问题生成一组 rollout，然后字据这些 rollout 的成败情况，把样本鉴识红三类：

Easy 样本：一组 rollout 全部收效，阐发模子已掌捏这类问题，平直跳过以减少无效更新；

Hard 样本：一组 rollout 全部失败，阐发模子迷糊饱胀常识基础，平直作念 RL 难获踏实正向信号。对此取舍多西席蒸馏（Multi-Teacher Distillation），引入多个 teacher 让 student 学习多种合理推理轨迹的共通部分，减少单一 teacher 的特定偏差，先成就可靠先验，再去道后续探索；

Mid 样本：一组 rollout 有收效也有失败，是最有价值的"学习前沿"。这类样本相宜 RL 优化。但为措置尺度 RL 的高方差问题，团队在 GRPO 的基础上引入了Group Alignment Loss，也即是GAL，来对皆吃亏。

GAL 的中枢想路是运用归并组 rollout 中的成败轨迹各异，显式将模子拉向正确轨迹、推离造作轨迹。这让 RL 更新不再仅依赖高噪声奖励信号，而是特殊得到了一层更踏实的相对对皆经管。

换句话说，GAL 的作用并不是陋劣"再加一个 loss "，而是在 RL 更新过程中充任一个动态的方差阻扰项。

若是从表面上回归 DYPO 的瞎想逻辑，它其实是在分别处理 SFT 和 RL 的两个中枢谬误：

多西席蒸馏针对Hard 样本，缓解 SFT 的高偏差问题。多个 teacher 的组合可对消个体偏差，2026美加墨世界杯(中国)使举座监督偏差随 teacher 数目加多而下落；

GAL 针对Mid 样本，措置 RL 的高方差问题。混共计算的梯度方差严格小于纯 GRPO，且随模子区分轨迹才调的擢升，GAL 自身的方差还会进一步自然衰减。

由此可见，DYPO 并不是陋劣把 SFT 和 RL 拼起来，而是在结构上把"高偏差监督"和"高方差强化学习"分别放到最相宜的样本上处理。也正因为如斯，它更像是一种再行组织后查验过程的表情，而不单是是一个新的查验妙技。

△ 图 3：GAL 的直不雅机制

如图 3，它运用归并组 rollout 中还是出现的正负样本，把模子往正确轨迹标的拉近，同期把造作轨迹往外推开。

本质成果

磋议团队在数学和逻辑推理场景开展本质，基础模子包括Qwen2.5-Math-7B 和 Qwen3-4B-Base，评测任务粉饰 AIME 2024/2025、AMC、MATH-500、Minerva，以及更偏漫步外泛化的 ARC-c 和 GPQA-Diamond。

对这类使命来说，分数自然蹙迫，但若是只看最终成果，很容易把 DYPO 剖析成"又一个作念得更高的查验妙技"。实在好得看的，其实是它到底赢在什么场地。

在Qwen2.5-Math-7B上，和传统SFT → RL规则 pipeline 比较，DYPO：

五个复杂推理 benchmark 上的对等分从47.7擢升到52.5，对应4.8个点的擢升

开运体育中国app官方手机版

在 OOD 任务上，对等分从48.3擢升到61.6，对应13.3个点的擢升

这一擢升并非依赖单一任务冲高，而是举座阐发更踏实。尤其是在GPQA-Diamond这种更敬重迁徙推理才调的任务上，DYPO 取得了表中最佳的成果，这阐发它学到的并不单是更逼近查验漫步的模板。

△ 图 4：Qwen2.5-Math-7B 上的举座成果对比

如图炫夸，DYPO 在复杂推理和漫步外任务上都阐发出较强的详细上风。

在Qwen3-4B-Base上，访佛的趋势依然存在。DYPO：

在 ID 任务上的对等分达到66.9，昭彰高于SFT → RL的56.1；

在 OOD 任务上，对等分达到68.5，也高于后者的 52.6。

这阐发它的收益并不单依赖某一个特定 backbone，而更像来自这套动态分流机制自身。

此外，消融本质进一步考证了体式灵验性。

好多时候，一个体式看起来更强，巧合是因为体式自身，也可能只是 teacher 更强、数据更好。

但在这项使命里，即便把第二个 teacher 换成比原西席 deepseek-R1 更弱的 Qwen3-8B 模子，DYPO 依然能把AIME 25从22.0擢升到27.8，把GPQA-Diamond从30.8擢升到39.4。

这意味着它的擢升并不单是来自"多喂了一些更强 teacher 的数据"，而是背面这套动态路由与低方差优化自身照实阐扬了作用。

除了最终成果，磋议还考证了 DYPO 的查验踏实性。

作家分析了查验过程中离线数据占比、reward 和战术熵的变化。

一个很有兴趣的餍足是，DYPO 并不是一上来就把模子推向更强的探索，而是跟着才调擢升，逐渐缩短对监督信号的依赖，让查验自然从"更靠 teacher 扶着走"过渡到"更依赖战术我方探索"。

这个过程有点像一种自适合课程学习：先把基础稳住，再把探索空间冉冉放出来。

△ 图 5：查验动态分析

如图，跟着查验推动，DYPO 会逐渐减少对离线监督的依赖，同期保持相对健康的战术各样性。

再看梯度范数。

尺度 GRPO 的梯度弧线会有比较昭彰的剧烈摇荡，而 DYPO 的弧线要平滑得多。这种各异看起来像是查验细节，但背后对应的其实是一个很骨子的问题：若是梯度一直在大幅舞动，查验就更容易发散，也更难把学习率和优化战术设得积极。

DYPO 在这里阐发出的踏实性，正好阐发它对 RL 那部分高方差更新作念了灵验经管。

△ 图 6：梯度范数对比

如图 6，和尺度 GRPO 比较，DYPO 的更新轨迹更平滑，也更容易保持可控。

回归

DYPO 不是在证明 SFT 和 RL 不错沿途用，而是在回报它们到底应该怎样沿途用。它提供的，是一种更像"查验组织表情"的想路。

过往磋议已意志到，单纯依赖监督粗略单纯依赖强化学习，都不及以把大模子推理才调往前再推一大步。但中枢难点并非瞎想计算函数，而是不同阶段、不相似本暴潜入来的学习信号自身就不一样。

DYPO 的中枢孝敬，是将优化逻辑前移：先判断样本学习阶段，再匹配优化旅途。这么一来，SFT 认真把模子扶稳，RL 认真让模子络续往外探索，而非无离别地搀和两种信号。

自然，这项使命也有其本质范围。

当今主要考证的是数学与逻辑推理场景，对盛开式对话、创作类任务是否相似灵验，还需要进一步不雅察；同期，为了踏实推断样本难度，查验时每个 prompt 需要生成 8 条 rollout，这也意味着特殊算力支拨。

关于大模子推理才调增强来说，这也许不是特地，但 DYPO 无疑提供了一个值得连接推动的新标的。

Arxiv Link: https://arxiv.org/pdf/2604.08926

Github Link: https://github.com/Tocci-Zhu/DYPO

一键三连「点赞」「转发」「留神心」

宽待在驳斥区留住你的看法！

— 完 —

咱们正在招聘又名眼疾手快、柔顺 AI 的学术裁剪实习生 � �

感风趣的小伙伴宽待柔顺 � � 了解确定

� � 点亮星标 � �

科技前沿进展逐日见2026美加墨世界杯(中国)

上一篇：上一篇：2026美加墨世界杯(中国) 德国十米大骨架，组团访华！狗见了都怕

下一篇：下一篇：2026美加墨世界杯中国认证平台英伟达给黄仁勋儿女涨薪了！年薪百万好意思元，“凭智商而不是身份”

2026世界杯直播app

2026美加墨世界杯(中国) 当SFT遇上RL：基于样本学习阶段的动态战术优化机制