[论文解读] Second Thoughts are Best: Learning to Re-Align With Human Values from Text Edits
本论文引入 Second Thoughts,一种学习范式,通过从源文本到目标文本学习编辑链来重新对齐语言模型与人类价值观,并包含一个 RL 精炼阶段。这在被污染的上下文中也能提高价值对齐和可解释性。
We present Second Thought, a new learning paradigm that enables language models (LMs) to re-align with human values. By modeling the chain-of-edits between value-unaligned and value-aligned text, with LM fine-tuning and additional refinement through reinforcement learning, Second Thought not only achieves superior performance in three value alignment benchmark datasets but also shows strong human-value transfer learning ability in few-shot scenarios. The generated editing steps also offer better interpretability and ease for interactive error correction. Extensive human evaluations further confirm its effectiveness.
研究动机与目标
- 激发并解决在开放世界情境下微调后的语言模型与人类价值观的错位问题,特别是在上下文被污染时。
- 提出一种编辑链范式(插入/删除/替换)来建模人类编辑并恢复与价值观对齐的文本。
- 在标准训练基础上加入增强编辑,应用强化学习以提升连贯性与对齐性。
- 通过大量的人类评估展示编辑链的迁移学习能力与可解释性。
提出的方法
- 使用带有可自定义成本的动态规划编辑距离方法,从源文本与目标文本推断编辑链。
- 通过将编辑链转换为接近自然语言的训练输入,使用增强编辑建模(AEM)来扩充训练。
- 使用否定示例来引导精炼,并通过强化学习提升连贯性。
- 应用两种强化学习精炼策略:对抗性模仿学习(AIL)和价值建模(VM),将输出推向上下文连贯且价值对齐的文本。
- 在多个价值对齐基准上进行评估,并与包括大型语言模型 API 在内的强基线进行比较。
实验结果
研究问题
- RQ1模型是否可以通过从被污染文本到对齐文本的编辑链学习,重新与人类价值观对齐?
- RQ2通过编辑链(AEM)增强训练并用 RL 精炼,是否比基线在价值对齐与连贯性上有提升?
- RQ3Second Thoughts 在有限标注数据的未见价值对齐任务中的迁移能力如何?
主要发现
- 结合 AEM + VM 的 Second Thoughts 在 Moral Stories、MIC 和 ETHICS-Deontology 基准测试上实现最佳对齐与连贯性。
- RL 精炼(VM 或 AIL)显著优于非 RL 基线,在若干情景甚至超越 InstructGPT。
- 编辑链提升了迁移学习,在未见的价值对齐任务上获得显著的少样本收益。
- 人工评估显示在对齐和连贯性方面较多项基线和大型 API 服务有实质性改进。
- 该方法通过每个对齐决策的显式编辑链提供了增强的可解释性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。