QUICK REVIEW

[論文レビュー] Social Choice Should Guide AI Alignment in Dealing with Diverse Human Feedback

Vincent Conitzer, Rachel A. Freedman|arXiv (Cornell University)|Apr 16, 2024

Ethics and Social Impacts of AI被引用数 7

ひとこと要約

本論文は、AIの整合性のために多様な人間のフィードバックを集合的に集約するために社会選択理論を適用することを主張し、RLCHF（Reinforcement Learning from Collective Human Feedback）とシミュレートされた集合的意思決定を提案して、表現性、公平性、モデル微調整の一貫性を改善する。

ABSTRACT

Foundation models such as GPT-4 are fine-tuned to avoid unsafe or otherwise problematic behavior, such as helping to commit crimes or producing racist text. One approach to fine-tuning, called reinforcement learning from human feedback, learns from humans' expressed preferences over multiple outputs. Another approach is constitutional AI, in which the input from humans is a list of high-level principles. But how do we deal with potentially diverging input from humans? How can we aggregate the input into consistent data about "collective" preferences or otherwise use it to make collective choices about model behavior? In this paper, we argue that the field of social choice is well positioned to address these questions, and we discuss ways forward for this agenda, drawing on discussions in a recent workshop on Social Choice for AI Ethics and Safety held in Berkeley, CA, USA in December 2023.

研究の動機と目的

AIの整合性における人間のフィードバックの分岐を扱うために社会選択理論を用いる動機づけ。
フィードバックを提供すべき人物とそれをどのように集約するかという重要な問いの特定。
RLHFとモデル微調整に多様な入力を組み込むための原則的な手法の提案。
安全で倫理的なAIのために新しい社会選択の道具が必要な領域を強調。

提案手法

代表性に欠けるデータと多様な人間の意思決定を伴う RLHF および CAI アプローチとその限界をレビューする。
関連する社会選択の概念（例：集合化ルール、ウェルフェア関数、代表的なアセンブリー）をAI整合性の課題に対応づける。
2つの方法論的経路を提案する：RLCHF（トレーニング前に人間のフィードバックを集合化）と simulated collective decisions（フィードバック処理中または処理後にグループの選択をシミュレートする）。
フィードバックをランキング、評価、分布などとして形式化し、それを報酬信号や教師付きターゲットに翻訳する方法を述べる。
評価者の特徴と多様な入力を社会的福祉ルールや一人勝ち/多人数勝ちルールを介して取り込む方法を論じる。
クローン独立性や戦略的投票といった概念のAIフィードバック文脈への潜在的適用性を論じる。

実験結果

リサーチクエスチョン

RQ1AIの整合性のために誰がフィードバックを提供すべきか、表現性を確保するには？
RQ2多様な人間の判断をどのように集約してモデルの行動を導くべきか、機械的な結果（例：循環、独裁など）を生まないようにするには？
RQ3どの形式のフィードバックが principled な集約と頑健な学習成果を最も支えるか？
RQ4RLHF のパイプラインに社会選択の概念をどう組み込むか、または推論時の意思決定をどう inform するか？
RQ5AIの整合性に最も関連する伝統的な社会選択の概念はどれで、なぜそうなのか？

主な発見

RLHF には、代表性のないデータや人間の多様性の不完全なモデル化といった限界がある。
社会選択理論は、誰がフィードバックに寄与するか、彼らがどんなフィードバックを提供するか、そしてそれをどのように集約するかを決定するための原則的な手法を提供する。
2つの具体的なアジェンダを提案する：RLCHF（トレーニング時の集合的フィードバック集約）と simulated collective decisions（推論時またはトレーニング時の集合的選択）。
多様な形式のフィードバックは、集約を可能にする共通の表現（効用、スコア、またはランキング）へ変換できる。
評価者の特徴は報酬信号を個別化・多様化するために用いられ、ステークホルダの多様性への整合性が向上する可能性がある。
クローン独立性や戦略的投票といった社会選択の概念がAI整合性の文脈で最も関連性が高いかを研究する必要性を強調している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。