QUICK REVIEW

[論文レビュー] Supervising strong learners by amplifying weak experts

Paul F. Christiano, Buck Shlegeris|arXiv (Cornell University)|Oct 19, 2018

Reinforcement Learning in Robotics参考文献 18被引用数 27

ひとこと要約

この論文では、複雑でアルゴリズム的でないタスクの学習のための方法として、反復的拡張（Iterated Amplification）を提案している。人間の専門家が複数のAIエージェントのコピーに部分問題を委譲することで、外部の報酬なしに教師あり学習を可能にする。アルゴリズム的環境では、タスクがより単純な要素に分解可能なため、成功が確認された。

ABSTRACT

Many real world learning tasks involve complex or hard-to-specify objectives, and using an easier-to-specify proxy can lead to poor performance or misaligned behavior. One solution is to have humans provide a training signal by demonstrating or judging performance, but this approach fails if the task is too complicated for a human to directly evaluate. We propose Iterated Amplification, an alternative training strategy which progressively builds up a training signal for difficult problems by combining solutions to easier subproblems. Iterated Amplification is closely related to Expert Iteration (Anthony et al., 2017; Silver et al., 2017), except that it uses no external reward function. We present results in algorithmic environments, showing that Iterated Amplification can efficiently learn complex behaviors.

研究の動機と目的

アルゴリズム的または人間が計算可能な訓練信号が存在しないタスク、特に「人間のスケールを超える」タスクの学習の課題に対処すること。
最適化の過程で誤った行動や病理的行動を引き起こす可能性がある代理目的の制限を克服すること（グッドハートの法則）。
人間の監視とAI支援を組み合わせて、意味のある訓練信号を構築できるスケーラブルな反復的訓練フレームワークを開発すること。
複雑な問題を単純で評価可能な部分問題に分解することで、暗黙の目的に対する教師あり学習を可能にすること。
正確でない、あるいは短期的な代理指標に依存するのを減らすことで、強力で利益をもたらすAIシステムの訓練の基盤を提供すること。

提案手法

人間の専門家 $H$ が複数のMLエージェント $X$ のコピーを調整して、タスクを部分問題に分解することで解決する複合システム $\operatorname{Amplify^{H}}(X)$ を定義する。
教師あり学習を用いて $X$ を $\operatorname{Amplify^{H}}(X)$ の出力を予測するように訓練することで、人間が導く複数エージェントによる問題解決から学習できるようにする。
部分質問は人間が生成し、部分回答は $X$ が計算する、アルゴリズム的分解が可能な質問・回答タスクに焦点を当てる。
モデルの能力が適切に配分されるように、訓練分布 $\mathcal{D}$ を、ターゲットの質問と、分解中に生じるすべての部分質問を含むように構築する。
実験では人間の判断を手動でコーディングしたアルゴリズムに置き換えることで、人間の分解を模倣しながらも、この手法の核心構造を保持する。
反復的に $X$ を改善するために、より複雑な問題に対して再訓練を行い、拡張されたシステムを監視信号として用いる。

実験結果

リサーチクエスチョン

RQ1人間が直接評価することが不可能な複雑なタスクに対して、訓練信号を構築することは可能か？
RQ2外部の報酬が存在しない状況でも、人間が委譲した複数エージェントによる問題解決からのみ学習できるように、AIエージェントを効果的に訓練できるか？
RQ3反復的拡張プロセスにより、単体のエージェントでは解決できない複雑な行動が学習可能になるか？
RQ4部分問題が非自明な依存関係を持つ複数の部分に分解されるタスクにおいて、この手法はどの程度スケーリング可能か？
RQ5アルゴリズム的または人間の訓練信号が存在しない、アルゴリズム的領域を超えた現実世界のタスクに対しても、このフレームワークは適用可能か？

主な発見

反復的拡張は、外部の報酬関数が存在しない環境でも、複雑なアルゴリズム的行動を効果的に学習できた。
人間が委譲した複数エージェントのシステムからの教師あり学習が可能であり、このような設定が実用的な訓練信号として機能できることを示した。
元のタスクがアルゴリズム的に評価可能でなくても、タスクが部分問題に分解可能であれば、このアプローチは効果的に機能する。
拡張されたシステム（$\operatorname{Amplify^{H}}(X)$）から得られる訓練信号は、ターゲットタスクにおけるエージェントのパフォーマンス向上に十分である。
人間の専門家が複数のAIエージェントを調整することで単体のエージェントを上回る性能を発揮できるため、人間のスケールを超えるタスクに対してもこのフレームワークは有望である。
実験における簡素化（人間の判断を手動コーディングした論理に置き換え）は、コアメカニズムを損なわないため、実世界への展開に対しても頑健であると考えられる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。