[论文解读] Reinforced Self-Training (ReST) for Language Modeling
ReST 是一种逐步增长批量的离线 RLHF 方法,在从当前策略生成更大的数据集与对经过筛选的高奖励数据进行政策细化之间交替,以使语言模型与人类偏好保持一致,已在机器翻译任务上得到验证。
Reinforcement learning from human feedback (RLHF) can improve the quality of large language model's (LLM) outputs by aligning them with human preferences. We propose a simple algorithm for aligning LLMs with human preferences inspired by growing batch reinforcement learning (RL), which we call Reinforced Self-Training (ReST). Given an initial LLM policy, ReST produces a dataset by generating samples from the policy, which are then used to improve the LLM policy using offline RL algorithms. ReST is more efficient than typical online RLHF methods because the training dataset is produced offline, which allows data reuse. While ReST is a general approach applicable to all generative learning settings, we focus on its application to machine translation. Our results show that ReST can substantially improve translation quality, as measured by automated metrics and human evaluation on machine translation benchmarks in a compute and sample-efficient manner.
研究动机与目标
- 通过一个高效的离线学习框架,推动 LLM 输出与人类偏好对齐的动机。
- 提出一个增长批次的强化学习方法,将数据生成与策略改进分离。
- 证明 ReST 在翻译基准上能超越监督学习和在线 RLHF 基线。
- 评估不同的离线 RL 损失以及多次 Grow/Improve 步骤对策略质量的影响。
- 评估人类偏好与奖励模型代理之间的对齐动力学。
提出的方法
- 定义一个增长批次 RL 框架,在 Grow 步骤中从当前策略采样以创建增强数据集。
- 在 Improve 步骤中,使用基于人类偏好训练的奖励模型来过滤增强数据。
- 在经过筛选的数据上使用离线 RL 目标对策略进行微调(例如 BC 或其他离线损失)。
- 通过逐步提高奖励阈值进行迭代,以获得更高质量的数据子集用于后续的 Improve 步骤。
- 可选地在推理时使用 Best-of-N 采样以利用奖励信号。
- 提供一个总体解释并讨论为何这种解耦的数据生成有助于数据重用与调试。
实验结果
研究问题
- RQ1从当前策略增长离线数据是否比在线 RLHF 更高效地提高语言模型与人类偏好的一致性?
- RQ2在 ReST 框架中,不同的离线 RL 损失在机器翻译任务上表现如何?
- RQ3多次 Grow/Improve 步骤对奖励模型分数和人类偏好有何影响?
- RQ4Best-of-N 采样在实践中是否放大了 ReST 的收益?
- RQ5奖励模型代理在跨数据分布时对人类偏好的一般化程度如何?
主要发现
- ReST 的变体在多个数据集的翻译基准上优于监督学习基线。
- 在线 PPO RL 在奖励指标和 BLEU 上可能不及 ReST,提示在线方法中的奖励操控风险。
- 多次 Improve 步骤并结合不断增长的奖励阈值,在验证集上持续提高平均奖励分数(如 IWSLT 2014 De-En、WMT-2020 Zh-En、Web Domain En-Zh)。
- 在 IWSLT 2014 De-En 上,单次 Grow 配合更多的 Improve 步骤可获得更高的奖励;额外的 Grow 步骤可进一步提升性能(例如在 IWSLT 2014 上最高可达 5.3 点)。
- 使用 ReST 的 Best-of-N 推理进一步提升奖励,在基线 BC 的中等 N 时达到与较大 N 相当的水平。
- 在 ReST 中,BC 损失通常在离线损失中对奖励模型分数和人类对齐方面提供最强的增益。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。