[论文解读] The Wisdom of Hindsight Makes Language Models Better Instruction Followers
HIR 将指令对齐重新构建为一个目标条件化的强化学习问题,并使用事后指令重标注,在无奖励的监督两阶段流水线中训练语言模型,在 BigBench 任务上优于 PPO 和 FARL 基线。
Reinforcement learning has seen wide success in finetuning large language models to better align with instructions via human feedback. The so-called algorithm, Reinforcement Learning with Human Feedback (RLHF) demonstrates impressive performance on the GPT series models. However, the underlying Reinforcement Learning (RL) algorithm is complex and requires an additional training pipeline for reward and value networks. In this paper, we consider an alternative approach: converting feedback to instruction by relabeling the original one and training the model for better alignment in a supervised manner. Such an algorithm doesn't require any additional parameters except for the original language model and maximally reuses the pretraining pipeline. To achieve this, we formulate instruction alignment problem for language models as a goal-reaching problem in decision making. We propose Hindsight Instruction Relabeling (HIR), a novel algorithm for aligning language models with instructions. The resulting two-stage algorithm shed light to a family of reward-free approaches that utilize the hindsightly relabeled instructions based on feedback. We evaluate the performance of HIR extensively on 12 challenging BigBench reasoning tasks and show that HIR outperforms the baseline algorithms and is comparable to or even surpasses supervised finetuning.
研究动机与目标
- 在不增加 RL 训练复杂性的前提下,激励语言模型与接近人类指令的对齐改善。
- 把指令执行与目标条件化强化学习连接起来,以实现数据高效学习。
- 通过对成功与失败的输出进行重标注来最大化对齐度。
- 开发简单、参数较少的微调方法,复用预训练流程。
提出的方法
- 将语言指令对齐建模为以指令提示为定义的目标空间的目标导向RL问题。
- 引入两阶段的事后指令重标注(HIR):在线数据收集后进行离线重标注与监督学习。
- 利用重标注生成与模型输出对齐的新指令提示,使得能够从失败中学习而不仅仅是成功。
- 在离线重标注中,应用脚本化反馈函数来创建新的指令目标,并使用标准的 seq2seq 损失进行训练。
- 加入对比性指令标注损失以区分不同指令的输出,并通过熵正则化促进探索。
- 最终的训练目标为 L_final = L_supervise + alpha * L_contrastive + beta * L_entropy。
实验结果
研究问题
- RQ1事后重标注是否能够在没有显式奖励模型的情况下将反馈转化为基于指令的监督?
- RQ2在线离线两阶段训练机制是否比 PPO 或 FARL 基线更有效地提升指令对齐?
- RQ3该方法在不同模型规模(基础和大规模 FLAN-T5)及任务类型上是否鲁棒?
- RQ4熵和对比损失对性能与数据效率有何影响?
主要发现
- 在使用 FLAN-T5-large 时,HIR 在 12 个 BigBench 推理任务上超越 PPO 和 FARL 基线。
- 在像跟踪混洗对象(5)和(7)这样的困难任务上,HIR 超越最佳基线的幅度显著。
- 即使在较小的基础模型(FLAN-T5-base)上,HIR 在多项任务中也能获得强劲提升。
- 消融研究显示熵正则化、标签平滑和子输出采样各自对性能提升有贡献。
- 在不同模型规模下,HIR 均实现显著提升,表明对基础模型容量具有鲁棒性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。