[论文解读] Training Language Models with Language Feedback at Scale
引入 ILF,一种迭代方法,通过自由形式的语言反馈来改进和微调语言模型,展示摘要的可扩展改进,并超过某些人类提供的基线。
Pretrained language models often generate outputs that are not in line with human preferences, such as harmful text or factually incorrect summaries. Recent work approaches the above issues by learning from a simple form of human feedback: comparisons between pairs of model-generated outputs. However, comparison feedback only conveys limited information about human preferences. In this paper, we introduce Imitation learning from Language Feedback (ILF), a new approach that utilizes more informative language feedback. ILF consists of three steps that are applied iteratively: first, conditioning the language model on the input, an initial LM output, and feedback to generate refinements. Second, selecting the refinement incorporating the most feedback. Third, finetuning the language model to maximize the likelihood of the chosen refinement given the input. We show theoretically that ILF can be viewed as Bayesian Inference, similar to Reinforcement Learning from human feedback. We evaluate ILF's effectiveness on a carefully-controlled toy task and a realistic summarization task. Our experiments demonstrate that large language models accurately incorporate feedback and that finetuning with ILF scales well with the dataset size, even outperforming finetuning on human summaries. Learning from both language and comparison feedback outperforms learning from each alone, achieving human-level summarization performance.
研究动机与目标
- 将从语言反馈中学习的动机和形式化,作为对比基于反馈的可扩展替代方法。
- 开发 Imitation Learning from Language Feedback (ILF) 算法,包含 refine-and-finetune 步骤。
- 表明 ILF 对应于贝叶斯推断,并与来自人类反馈的 RL 相关。
- 在一个新的数据集上,对 ILF 进行评估,包含合成的冒犯词移除任务和一个现实世界的摘要任务。
- 研究 refinements、ranking 方法,以及混合反馈(语言 + 二进制),以达到人类水平的表现。
提出的方法
- 三步 ILF 循环:在输入 c、初始输出 x0 和反馈 f 的条件下生成 refinements x1;使用评分模型选择最佳 refinements;微调原始语言模型以最大化所选 refinements 的似然。
- 使用将反馈通过 refine-ment 模型 piψ 整合进 qc(x1) 的改进提案,并进行带反馈条件的生成。
- 用基于重要性采样的 KL 最小化来近似学习目标,最终得到一个在上下文下有效地最大化前若干 refinements 对数概率的目标(Eq. 4)。
- 通过一个指令微调的 LM 来预测 x1 是否充分整合了对 x0 的反馈来建模奖励 R,其中 beta → ∞ 会导致对最佳 refinement 的自归一化选择。
- 将 ILF 验证为贝叶斯推断并将其与带 KL 惩罚的人类反馈 RL 相关联,且展示对大型模型和数据集的可扩展性。
- 在合成的冒犯词移除任务和一个 Reddit TL;DR 摘要数据集上,实验性验证改进能力,比较 ranking 方法(InstructRM Ensemble 与 Embedding Similarity)以及微调基线。
实验结果
研究问题
- RQ1语言反馈是否使语言模型能够生成更能体现人类偏好的细化/改进?
- RQ2ILF 是否能够在大规模上进行有效训练,并在对人类摘要的微调或二进制反馈基线的比较中实现超越?
- RQ3哪种 ranking 方法最能选择出融入反馈的细化/改进?
- RQ4将语言反馈与二进制反馈结合对摘要质量的影响?
- RQ5就融入最重要反馈点而言,细化/改进相较于初始摘要的表现如何?
主要发现
- 只有最大规模的 175B GPT-3 模型在合成的冒犯词移除任务中有意义地融入反馈,为改进实验指导模型选择。
- 在摘要任务中,基于 refine 的微调的 ILF 表现优于包括对人类摘要微调在内的基线,覆盖样本量 100、1K、5K。
- 混合型 ILF+二进制反馈 方法(best-of-N,使用 OPT-RM 奖励模型)在 5K 样本上达到人类水平的摘要表现(约 50.8% 的胜率)。
- 在 ranking 时使用 InstructRM Ensemble 时,改进质量提高,展现出最好地融入反馈的示例。
- 语言反馈显著改善细化/改进;best-of-N 选择进一步提升与人类偏好的对齐。
- 使用 Best-of-N 采样时,细化/改进更倾向于更频繁地融入最重要的反馈点。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。