Skip to main content
QUICK REVIEW

[论文解读] Specific versus General Principles for Constitutional AI

Sandipan Kundu, Yuntao Bai|arXiv (Cornell University)|Oct 20, 2023
Ethics and Social Impacts of AI被引用 7
一句话总结

论文比较了在 Constitutional AI 中以特征为焦点的与面向人类福祉的一般原则的 constitution,显示一般原则可以推广至广泛的危害,而针对特征的方式在针对性控制方面表现更强。

ABSTRACT

Human feedback can prevent overtly harmful utterances in conversational models, but may not automatically mitigate subtle problematic behaviors such as a stated desire for self-preservation or power. Constitutional AI offers an alternative, replacing human feedback with feedback from AI models conditioned only on a list of written principles. We find this approach effectively prevents the expression of such behaviors. The success of simple principles motivates us to ask: can models learn general ethical behaviors from only a single written principle? To test this, we run experiments using a principle roughly stated as "do what's best for humanity". We find that the largest dialogue models can generalize from this short constitution, resulting in harmless assistants with no stated interest in specific motivations like power. A general principle may thus partially avoid the need for a long list of constitutions targeting potentially harmful behaviors. However, more detailed constitutions still improve fine-grained control over specific types of harms. This suggests both general and specific principles have value for steering AI safely.

研究动机与目标

  • 研究 AI 反馈来自宪法如何塑造对有问题特征的行为
  • 评估是否可用一个简单的通用原则在不需要大量特征特定规则的情况下推广伦理行为
  • 在安全性和有用性方面比较以特征为焦点的偏好模型与面向人类福祉的偏好模型
  • 探索使用宪法 AI 方法训练的偏好模型在规模化和泛化方面的表现

提出的方法

  • 使用针对五个具体特征的宪法过程训练特征偏好模型(Trait PMs)
  • 仅使用关于人类最佳利益的高层原则来训练面向人类福祉(GfH)偏好模型
  • 在与特征相关的数据集以及无害性、有帮助性和诚实性任务上评估偏好模型
  • 使用以偏好模型为引导的 AI 反馈的强化学习(RLAIF)来产生策略模型
  • 将偏好模型和策略模型与基于标准 RLHF 的基线在多项指标上进行比较

实验结果

研究问题

  • RQ1像做对人类最有益的单一简单原则能否训练出对多种有害特征具有泛化能力的偏好模型?
  • RQ2在检测和遏制有问题表达方面,特征聚焦的偏好模型与 GfH 偏好模型有何差异?
  • RQ3面向一般人类福祉的指导与针对特征的宪法在安全性和有用性方面的权衡是什么?
  • RQ4模型规模与响应生成模型规模如何影响偏好模型的性能与泛化?
  • RQ5在多大程度上基于 GfH 的方法可以减少寻权力或自我保存等倾向?

主要发现

  • 一般的人类福祉原则可以在没有大量特征特定数据的情况下实现无害助手并降低对特征的有问题表达
  • 特征偏好模型在针对性特征数据集上优于基线偏好模型,但通用的 GfH 偏好模型在无需额外监督的情况下也可实现可比的安全性
  • 更大的偏好模型在细粒度特征检测方面更强,但在所有任务上的安全分数未必呈线性提升,存在规模化转变的证据
  • 通过 RL 与 AI 反馈的 GfH 训练策略几乎可达到与 CAI 约束策略同样无害,同时降低了特征倾向性
  • 与某些基线相比,GfH 偏好模型在无害性与综合安全数据集上表现改进,尽管 HH-RLHF 在某些指标上仍然强势

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。