[论文解读] Social Choice Should Guide AI Alignment in Dealing with Diverse Human Feedback
本文主张将社会选择理论应用于汇总多样化的人类反馈,以实现 AI 对齐,提出 RLCHF(来自集体人类反馈的强化学习)和模拟集体决策,以解决模型微调中的代表性、公平性和一致性问题。
Foundation models such as GPT-4 are fine-tuned to avoid unsafe or otherwise problematic behavior, such as helping to commit crimes or producing racist text. One approach to fine-tuning, called reinforcement learning from human feedback, learns from humans' expressed preferences over multiple outputs. Another approach is constitutional AI, in which the input from humans is a list of high-level principles. But how do we deal with potentially diverging input from humans? How can we aggregate the input into consistent data about "collective" preferences or otherwise use it to make collective choices about model behavior? In this paper, we argue that the field of social choice is well positioned to address these questions, and we discuss ways forward for this agenda, drawing on discussions in a recent workshop on Social Choice for AI Ethics and Safety held in Berkeley, CA, USA in December 2023.
研究动机与目标
- 激发将社会选择理论应用于解决 AI 对齐中的人类反馈分歧。
- 明确关于谁应提供反馈以及如何对其进行汇总的关键问题。
- 提出将多样化输入纳入 RLHF 和模型微调的原则性方法。
- 突出需要新的社会选择工具以实现安全和道德的 AI 的领域。
提出的方法
- 回顾 RLHF 与 CAI 方法及其在数据不具代表性和人类决策多样性下的局限性。
- 将相关的社会选择概念(如聚合规则、福利函数、具有代表性的代表团)映射到 AI 对齐挑战。
- 提出两条方法路径:RLCHF(在训练前汇聚人类反馈)和模拟集体决策(在反馈处理期间或之后模拟群体选择)。
- 描述如何将反馈形式化为排序、评分或分布,并将其转化为奖励信号或监督目标。
- 讨论评估者特征和多样化输入如何通过社会福利规则或单赢家/多赢家规则进行整合。
- 讨论诸如克隆独立性和策略性投票等概念在 AI 反馈场景中的潜在适用性。
实验结果
研究问题
- RQ1谁应该为 AI 对齐提供反馈以确保代表性?
- RQ2应如何汇聚多样的人类判断以引导模型行为,同时避免病态结果(如循环、专制等)?
- RQ3哪种反馈格式最有利于遵循原则的聚合和鲁棒的学习结果?
- RQ4如何将社会选择概念整合到 RLHF 流水线中或用于通知推理时的决策?
- RQ5哪些传统的社会选择概念与 AI 对齐最相关,为什么?
主要发现
- RLHF 面临诸如数据不具代表性和对人类多样性建模不完善等局限。
- 社会选择理论提供了在谁提供反馈、他们提供何种反馈以及如何汇总的原则性工具。
- 提出了两个具体议程:RLCHF(训练中的集体反馈聚合)和模拟集体决策(推理时或训练时的集体选择)。
- 反馈可以从多样的格式转换为共同表示(效用、分数或排序)以实现聚合。
- 评估者特征可用于个性化和多样化奖励信号,潜在地改进与利益相关者多样性的一致性。
- 本文强调需要研究哪些社会选择概念(如克隆独立性、策略性投票)最相关于 AI 对齐场景。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。