[论文解读] ReMiT: RL-Guided Mid-Training for Iterative LLM Evolution
ReMiT 在中训练阶段使用经 RL 调整的参考来动态重新加权 token,从而提升基础模型并通过后训练阶段维持收益,在预训练与后训练之间形成自我强化的飞轮。
Standard training pipelines for large language models (LLMs) are typically unidirectional, progressing from pre-training to post-training. However, the potential for a bidirectional process--where insights from post-training retroactively improve the pre-trained foundation--remains unexplored. We aim to establish a self-reinforcing flywheel: a cycle in which reinforcement learning (RL)-tuned model strengthens the base model, which in turn enhances subsequent post-training performance, requiring no specially trained teacher or reference model. To realize this, we analyze training dynamics and identify the mid-training (annealing) phase as a critical turning point for model capabilities. This phase typically occurs at the end of pre-training, utilizing high-quality corpora under a rapidly decaying learning rate. Building upon this insight, we introduce ReMiT (Reinforcement Learning-Guided Mid-Training). Specifically, ReMiT leverages the reasoning priors of RL-tuned models to dynamically reweight tokens during the mid-training phase, prioritizing those pivotal for reasoning. Empirically, ReMiT achieves an average improvement of 3\% on 10 pre-training benchmarks, spanning math, code, and general reasoning, and sustains these gains by over 2\% throughout the post-training pipeline. These results validate an iterative feedback loop, enabling continuous and self-reinforcing evolution of LLMs.
研究动机与目标
- 识别中训练阶段作为提升 LLM 能力的关键转折点。
- 提出一个由 RL 参考模型引导的基于 token 的动态重新加权机制。
- 在无外部教师的情况下实现后训练与前训练之间的双向影响。
- 证明中训练阶段的改进能够在面向模型家族的后训练阶段传递并放大。
提出的方法
- 提出 ReMiT,一种在中训练阶段使用 RL 调整模型作为参考的 token 级重新加权方案。
- 计算基础模型与 RL 参考在每个 token 的损失差异,对每个序列对 delta 损失进行中心化,并通过裁剪后的缩放 Sigmoid 将其映射为权重。
- 将权重整合到中训练目标中,作为对标准下一个 token 预测损失的软重新加权。
- 使用管线内的 RL 调整模型作为参考,避免使用外部教师。
- 给出理论依据,将 ReMiT 与朝向隐含目标分布的 KL 散度以及与 KL-正则化 RL 的关系联系起来。
- 对三大开源基础模型家族(OLMo-1B、SmolLM3-3B、Youtu-LLM-2B)进行实验,将 ReMiT 与基线在 10 项下游基准上进行对比。
实验结果
研究问题
- RQ1通过 RL 参考引导的中训练重新加权是否能够提升基础模型的能力?
- RQ2中训练阶段的收益是否会在后训练阶段(SFT、DPO、RLVR)中传递并持续存在?
- RQ3ReMiT 是否在知识蒸馏和基于 token 的数据筛选等方法上具有优势?
主要发现
- ReMiT 在 10 项预训练基准上对各模型家族平均提升约 3%。
- 中训练阶段的收益能够传递到后训练阶段,在整个流程中维持超过 2% 的提升。
- ReMiT 在下游任务上优于 Vanilla NTP、MiniPLM、RHO-1 等基线。
- 该方法实现了基础模型与 RL 模型之间的共提升飞轮,而无需外部教师。
- 对 token 权重进行裁剪可稳定训练并在强调关键 token 的同时保持数据一致性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。