QUICK REVIEW

[論文レビュー] Specific versus General Principles for Constitutional AI

Sandipan Kundu, Yuntao Bai|arXiv (Cornell University)|Oct 20, 2023

Ethics and Social Impacts of AI被引用数 7

ひとこと要約

論文は特徴指向の憲法と人類全体の利益に資する一般原則を比較し、一般原則は広範な害へ一般化できる一方、特徴特異的アプローチは特徴を狙った制御をより強く実現することを示す。

ABSTRACT

Human feedback can prevent overtly harmful utterances in conversational models, but may not automatically mitigate subtle problematic behaviors such as a stated desire for self-preservation or power. Constitutional AI offers an alternative, replacing human feedback with feedback from AI models conditioned only on a list of written principles. We find this approach effectively prevents the expression of such behaviors. The success of simple principles motivates us to ask: can models learn general ethical behaviors from only a single written principle? To test this, we run experiments using a principle roughly stated as "do what's best for humanity". We find that the largest dialogue models can generalize from this short constitution, resulting in harmless assistants with no stated interest in specific motivations like power. A general principle may thus partially avoid the need for a long list of constitutions targeting potentially harmful behaviors. However, more detailed constitutions still improve fine-grained control over specific types of harms. This suggests both general and specific principles have value for steering AI safely.

研究の動機と目的

AIの憲法からのフィードバックが問題的な特性へ向かう行動をどう形成するかを調査する。
単一の簡潔な原則が、広範な特性特有ルールなしに倫理的行動を一般化できるかを評価する。
特徴指向の嗜好モデルと人類の利益にかなう嗜好モデルを、安全性と有用性の観点から比較する。
憲法AI手法で訓練した嗜好モデルのスケーリング挙動と一般化を探索する。

提案手法

5つの特性を対象とする憲法プロセスを用いて特徴嗜好モデル（Trait PMs）を訓練する。
人類の利益の観点からの高レベル原則のみを用いた善良な人類性（GfH）嗜好モデルを訓練する。
特性関連データセットおよび無害性、役立性、正直さのタスクでPMを評価する。
PMsに導かれたAIフィードバック付き強化学習（RLAIF）を用いてポリシーモデルを作成する。
複数の指標に渡ってPMとポリシーモデルを標準のRLHFベースのベースラインと比較する。

実験結果

リサーチクエスチョン

RQ1単一の簡潔な原則（人類のためにベストを尽くすこと）で、複数の有害特性へ一般化できるPMを訓練できるか。
RQ2特性に焦点を当てたPMは、GfH PMと比較して問題的表現を検出・抑制できるか。
RQ3一般的な善良な人類性の指針と特徴特異的憲法の間の安全性と有用性のトレードオフは何か。
RQ4モデルサイズと応答生成モデルサイズがPMの性能と一般化にどう影響するか。
RQ5GfHに着想を得たアプローチはパワー志向や自己保存傾向をどの程度抑制できるか。

主な発見

一般的な善良な人類性原則は、広範な特性表現を必要とせず無害なアシスタントを生み出し、問題的な特性表現を減らすことができる。
特徴PMは特定特性データセットでベースラインPMを上回るが、一般目的のGfH PMは追加の監督なしで同等の安全性を達成する。
より大きなPMは細かな特性検出を向上させるが、すべてのタスクで安全性スコアを線形に改善するとは限らず、スケーリング転換の証拠がある。
RLAIFを介してGfHで訓練されたポリシーは、CAI制約ポリシーにほぼ匹敵する無害性を示しつつ特性傾向を低減できる。
一部のベースラインよりGfH PMは無害性と安全性データの組み合わせで性能向上を示すが、HH-RLHFは依然として一部の指標で強力である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。