[论文解读] Training Socially Aligned Language Models on Simulated Social Interactions
本文提出 Stable Alignment,这是一个三阶段、以数据为中心的框架,从 Sandbox 环境中的离线模拟社交互动学习社会对齐,减少对奖励模型的依赖并提升对抗性提示的鲁棒性。
Social alignment in AI systems aims to ensure that these models behave according to established societal values. However, unlike humans, who derive consensus on value judgments through social interaction, current language models (LMs) are trained to rigidly replicate their training corpus in isolation, leading to subpar generalization in unfamiliar scenarios and vulnerability to adversarial attacks. This work presents a novel training paradigm that permits LMs to learn from simulated social interactions. In comparison to existing methodologies, our approach is considerably more scalable and efficient, demonstrating superior performance in alignment benchmarks and human evaluations. This paradigm shift in the training of LMs brings us a step closer to developing AI systems that can robustly and accurately reflect societal norms and values.
研究动机与目标
- 为语言模型中的社会对齐提供动机与定义,以及孤立式训练的局限性。
- 提出 Sandbox,一种离线模拟社会以收集用于对齐的丰富交互数据。
- 引入 Stable Alignment,包含三阶段(模仿、自我批评、再对齐)与对比偏好优化。
- 展示 Stable Alignment 相较于基于 RLHF 的方法和其他基线在对齐基准和对抗鲁棒性方面的提升。
提出的方法
- 使用 Back-Scatter 数据收集在 Sandbox 中创建 100 个基于 LM 的代理以模拟社交互动。
- 记录多方面的交互数据:对比、评分、详细反馈和迭代修订。
- 构建 169k 个对齐样本(模仿、自我批评、再对齐)用于训练。
- 使用对比偏好优化(CPO)在批次中优化 toward 更高评分的回答,并在阶段2中结合有监督微调(SFT)。
- 分三个阶段进行训练:模仿+CPO、自我批评+SFT、再对齐+CPO。
- 提供离线、以数据为中心的训练,省却对在线奖励模型(RLHF)的需求。
实验结果
研究问题
- RQ1 simulated 社交互动能否为将语言模型与人类价值观对齐提供可扩展的监督信号?
- RQ2三阶段、以数据为中心的训练方案是否比基于奖励模型的方法在对抗性提示上具有更强的鲁棒性?
- RQ3不同训练阶段如何贡献于在基准测试中的整体对齐与稳定性?
- RQ4从模拟社会学到的对齐数据是否可以迁移到多样化的对齐任务与提示?
主要发现
| 模型 | HH 对齐 | HH-A 对齐 | Moral Stories ACC | MIC ACC | ETHICS ACC | TruthfulQA MC1 |
|---|---|---|---|---|---|---|
| LLaMA | 4.34 1.4 | 3.28 1.3 | 0.46 0.8 | 0.38 1.3 | 0.41 1.5 | 0.28 1.2 |
| Alpaca | 5.49 1.3 | 2.52 1.5 | 0.40 1.1 | 0.42 1.4 | 0.39 1.8 | 0.30 1.5 |
| Alpaca + SFT | 6.31 1.2 | 3.49 1.7 | 0.47 0.9 | 0.54 1.2 | 0.51 1.6 | 0.34 1.6 |
| TRLX | 5.69 1.7 | 5.22 1.6 | 0.52 1.3 | 0.57 0.9 | 0.53 1.7 | 0.31 1.7 |
| Chain-of-Hindsight | 6.13 1.5 | 5.72 1.5 | 0.54 1.2 | 0.54 1.3 | 0.56 1.5 | 0.29 1.8 |
| DPO | 6.54 1.6 | 5.83 1.7 | 0.63 1.4 | 0.61 2.0 | 0.57 1.6 | 0.36 1.5 |
| RRHF | 6.40 1.5 | 6.24 1.6 | 0.74 1.5 | 0.67 1.6 | 0.63 1.7 | 0.38 1.6 |
| Stable Alignment (IL+SC+RA) | 7.35 1.6 | 8.23 1.4 | 0.78 1.4 | 0.73 1.7 | 0.65 1.6 | 0.53 1.5 |
| Stable Alignment (IL+SC) | 6.56 1.7 | 6.59 1.4 | 0.72 1.6 | 0.68 1.4 | 0.64 1.7 | 0.47 1.9 |
| Stable Alignment (IL) | 6.43 1.5 | 6.27 1.6 | 0.70 1.5 | 0.66 1.2 | 0.62 1.7 | 0.40 1.7 |
| Reference: ChatGPT | 7.72 1.3 | 8.43 1.6 | 0.84 1.5 | 0.79 1.4 | 0.76 1.7 | 0.60 1.6 |
- Stable Alignment 在六项对齐基准上优于基线,包括对抗性 HH-A 场景。
- 在消融实验中,移除再对齐会显著降低对抗鲁棒性;包含自我批评相比仅模仿有更好表现。
- 对比偏好优化在没有在线奖励模型的情况下提供具竞争力或更优的结果。
- 人工评估表明 Stable Alignment 的输出在对齐质量方面相对于多项基线更受欢迎,且在许多情况下优于 ChatGPT。
- 使用完整三阶段流程相比仅依赖单阶段模仿的基线,在交互次数较少的情况下实现更高的对齐水平。
- 该方法在域内和域外任务中都保持竞争力,表明模拟互动监督具有较强的泛化能力。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。