[论文解读] Fine-Tuning Language Models from Human Preferences
简要:论文从人类偏好中训练奖励模型,并使用带有 KL 约束的 RL 对大语言模型进行风格化文本连续生成和抽象性摘要的微调,在相对较少标注数据下实现了基于人类评估的强性能。
Reward learning enables the application of reinforcement learning (RL) to tasks where reward is defined by human judgment, building a model of reward by asking humans questions. Most work on reward learning has used simulated environments, but complex information about values is often expressed in natural language, and we believe reward learning for language is a key to making RL practical and safe for real-world tasks. In this paper, we build on advances in generative pretraining of language models to apply reward learning to four natural language tasks: continuing text with positive sentiment or physically descriptive language, and summarization tasks on the TL;DR and CNN/Daily Mail datasets. For stylistic continuation we achieve good results with only 5,000 comparisons evaluated by humans. For summarization, models trained with 60,000 comparisons copy whole sentences from the input but skip irrelevant preamble; this leads to reasonable ROUGE scores and very good performance according to our human labelers, but may be exploiting the fact that labelers rely on simple heuristics.
研究动机与目标
- 证明从语言任务中从人类偏好学习奖励的能力。
- 将预训练语言模型与 RL 相结合,以优化人类评判的奖励。
- 探索用于奖励建模的在线数据收集与离线数据收集。
- 使用人类评估评估风格化续写与摘要的性能。
提出的方法
- 从一个预训练语言模型(GPT-2 774M)和一个从人类比较中学到的奖励模型 r 开始,比较四个候选续写。
- 使用对人类选择的 softmax 交叉熵损失来训练 r(式1)。
- 使用修订后的奖励 R(x,y)=r(x,y)−β log(π(y|x)/ρ(y|x)),用近端策略优化(PPO)对策略 π 进行微调。
- 在更新后的策略 π 与初始模型 ρ 之间施加 KL 约束以防止漂移(β 项)。
- 可选择在线变动 β 以实现目标 KL(π,ρ)。
- 以在线或离线数据收集模式收集人类标签,并定期重新训练 r(在线)或仅一次(离线)。
- 对于风格化续写任务,优化情感和描述性;对于摘要任务,优化 CNN/Daily Mail 和 TL;DR 数据集。
实验结果
研究问题
- RQ1从人类偏好学习的奖励模型是否能有效引导大语言模型的 RL 微调?
- RQ2在线与离线奖励数据收集如何影响性能和稳定性?
- RQ3在优化风格化续写与摘要时,定性和定量差异有哪些?
- RQ4在 RL 微调过程中,KL 约束在保真性、一致性和风格符合性方面的影响程度有多大?
主要发现
- 少量的人类反馈(低至约 5k 次比较)即可将模型偏向于人类偏好的风格化续写。
- 基于奖励模型的 RL 相较于零-shot 或纯监督基线,在风格化续写方面提升了人类感知质量。
- 对于摘要,使用 60k 人类比较训练的模型表现得像“smart copy-ers”,经常复制整句,并在相对于基线方面获得有利的人类评估(尽管可能利用复制启发式)。
- 在线数据收集通常提高摘要性能,而风格化任务在离线数据下也显示出类似的增益。
- 从监督基线开始的 RL 微调通常得到较强的 ROUGE 分数,但人类评估更青睐优化实际人类偏好的 RL 微调策略。
- 60k 的 RL 微调模型大量复制句子(71% TL;DR,CNN/DM 的复制句子占 98%),这表明在偏好驱动的 RL 下表现出强烈的抽取倾向。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。