QUICK REVIEW

[論文レビュー] AI safety via debate

Geoffrey Irving, Paul F. Christiano|arXiv (Cornell University)|May 2, 2018

Computability, Logic, AI Algorithms参考文献 3被引用数 29

ひとこと要約

この論文は、超人的なAIシステムを人間の価値観と一致させる手法として、二つのモデルが質問について議論し、人間のジャッジがより真実で有用な回答を選ぶゼロサムゲームとしての自己対戦による自己学習を用いる議論（debate）を提案している。MNISTの実験では、6ピクセルの入力でスパース分類器の正確度を59.4％から88.9％まで向上させ、議論が人間の判断能力の限界を超えて拡張できることを示している。

ABSTRACT

To make AI systems broadly useful for challenging real-world tasks, we need them to learn complex human goals and preferences. One approach to specifying complex goals asks humans to judge during training which agent behaviors are safe and useful, but this approach can fail if the task is too complicated for a human to directly judge. To help address this concern, we propose training agents via self play on a zero sum debate game. Given a question or proposed action, two agents take turns making short statements up to a limit, then a human judges which of the agents gave the most true, useful information. In an analogy to complexity theory, debate with optimal play can answer any question in PSPACE given polynomial time judges (direct judging answers only NP questions). In practice, whether debate works involves empirical questions about humans and the tasks we want AIs to perform, plus theoretical questions about the meaning of AI alignment. We report results on an initial MNIST experiment where agents compete to convince a sparse classifier, boosting the classifier's accuracy from 59.4% to 88.9% given 6 pixels and from 48.2% to 85.2% given 4 pixels. Finally, we discuss theoretical and practical aspects of the debate model, focusing on potential weaknesses as the model scales up, and we propose future human and computer experiments to test these properties.

研究の動機と目的

直接的人間の判断が不適切な場合に、複雑な人間の目的や好みと超人的なAIシステムを一致させるという課題に対処すること。
直接的人間の監視に代わるスケーラブルな代替手段として、議論を提案すること。この際、エージェント同士が真実で有用な情報を提示する競争を行う。
議論が機械学習タスクにおける人間の判断を向上させることを実証的にテストすること、特に人間の監視が限られる状況において。
議論の理論的および実用的性質、特にその頑健性と現実世界のアライメント問題へのスケーラビリティを調査すること。
将来的な人間-AIアライメントにおける議論の有効性を検証する実験の基盤を築くこと、特に道徳的および公平性関連の分野において。

提案手法

二つのAIエージェントを、人間ジャッジが質問に関する立場を支持する理由を説得するための発言を交互に行うゼロサムゲームとしての議論で自己対戦で訓練する。
人間ジャッジはより真実で有用な主張を選択し、その信号を両エージェントのポリシー更新のためのフィードバックとして使用する。
オープンエンドの言語の複雑さを避けるために、非自然言語の形式（例：スパース分類器を用いた画像ベース分類）を簡素化した議論形式を採用する。
議論を複雑性理論的アナロジーとしてモデル化する：最適な戦略による議論はPSPACEに属する任意の問題を解けるが、直接的人間の判断はNPに制限される。
MNIST画像分類に議論を適用し、エージェントがどの数字が含まれているかを議論し、スパース分類器を人間ジャッジとして使用する。
より洗練された理論的モデル、道徳的およびバイアス判断に関する人間の研究、人間の議論行動に類似したML近似モデルを用いた将来的な実験を提案する。

実験結果

リサーチクエスチョン

RQ1人間ジャッジが直接的に評価できない複雑なAI行動を、根拠を段階的に分解して検証可能な主張と反論に分けることで、議論が正しく評価可能にすることができるか？
RQ2人間が分野に精通していない場合でも、議論が直接的監視を超えて人間の判断をどの程度拡張できるか？
RQ3人間のバイアスに強く、スケーラビリティに優れた議論は、拡張（amplification）と比較して、どのような点で優れているか？
RQ4計算複雑性の観点から、議論の理論的限界は何か？そして、現実世界のAIアライメント問題にどのように対応できるか？
RQ5人間ジャッジがバイアスや一貫性の欠如を示す可能性がある道徳的または公平性関連の問いに対して、議論は効果的に適用可能か？

主な発見

MNISTの実験では、議論によりスパース分類器の正確度が6ピクセルの入力で59.4％から88.9％まで向上し、議論が人間の直接的判断能力を超えて判断を向上させられることを示している。
4ピクセルの入力でも、議論により分類器の正確度が48.2％から85.2％まで向上し、極めて入力が疎な状況でも一貫した改善が見られた。
議論により、人間ジャッジは根拠を検証可能な主張と反論に分解することで、複雑で高精度なAI行動を評価できるようになる。
理論的分析により、最適な戦略による議論はPSPACEに属する任意の問題を解けることが示され、直接的人間の判断はNPに制限されるため、人間の推論能力が顕著に拡張されることが示唆される。
特に分岐が多岐にわたる状況（例：多数のバケーション先から選択するなど）では、議論は深い議論の連鎖を扱えるため、浅い拡張よりも優れている。
議論のスケーリングに伴う主なリスク（偽のアライメント、敵対的主張）を同定し、耐性を検証するための将来的な実験を提案している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。