[論文レビュー] CURIOUS: Intrinsically Motivated Modular Multi-Goal Reinforcement Learning
CURIOUSは、モジュラーで目標条件付きの RL アプローチ(m-uvfa)を、内的な学習進捗に基づくカリキュラムと組み合わせ、単一のポリシー内で多様なモジュラー目標を自律的に選択・学習させ、開発的自己組織化と注意散漫や外乱へのロバスト性を可能にします。
In open-ended environments, autonomous learning agents must set their own goals and build their own curriculum through an intrinsically motivated exploration. They may consider a large diversity of goals, aiming to discover what is controllable in their environments, and what is not. Because some goals might prove easy and some impossible, agents must actively select which goal to practice at any moment, to maximize their overall mastery on the set of learnable goals. This paper proposes CURIOUS, an algorithm that leverages 1) a modular Universal Value Function Approximator with hindsight learning to achieve a diversity of goals of different kinds within a unique policy and 2) an automated curriculum learning mechanism that biases the attention of the agent towards goals maximizing the absolute learning progress. Agents focus sequentially on goals of increasing complexity, and focus back on goals that are being forgotten. Experiments conducted in a new modular-goal robotic environment show the resulting developmental self-organization of a learning curriculum, and demonstrate properties of robustness to distracting goals, forgetting and changes in body properties.
研究の動機と目的
- モジュール型の目標表現を用いて、単一のポリシー内で連続的な多様なモジュラー目標の学習を可能にする。
- 絶対的な学習進捗に基づく内発的動機メカニズムを導入し、モジュールと目標のリプレイを導く。
- モノリシックなモジュラー方針(m-uvfa)を開発し、モジュール間および目標間の知識移転を促進する。
- 自己組織化カリキュラムとロバスト性を研究するためのモジュラー目標環境を作成・評価する。
提案手法
- Universal Value Function Approximators (uvfa) をモジュラー目標入力で拡張し、Modular-uvfa (m-uvfa) を形成する。
- 1-hot のモジュール記述子と目標マスキングを用いて、1つのネットワーク内で複数の目標モジュールを扱う。
- オフポリシー法(DDPG)と hindsight のような目標置換によるクロスゴール学習で訓練する。
- 各モジュールの能力と学習進捗を推定して内発的動機を実装し、比例確率マッチングポリシーとε-greedy 探索でモジュールを選択する。
- 経験中のモジュール記述子と目標を置換してモジュール間および目標間のリプレイを用い、想定されたモジュール-目標制約に基く内部報酬を付与する。
実験結果
リサーチクエスチョン
- RQ1単一のモノリシックポリシーは、モジュラー入力エンコードを介して多様なモジュラー目標のセットを扱えるか?
- RQ2絶対的な学習進捗に基づくモジュール選択は、ランダム/モジュール固有の訓練より学習効率とカリキュラム開発を改善するか?
- RQ3モジュール間・目標間リプレイは、知識移転と注意散漫や外乱に対するロバスト性にどう影響するか?
- RQ4内発的動機がモジュール目標 RL のカリキュラムを導くとき、どのような自己組織化された発達段階が現れるか?
- RQ5オープンエンド環境において、忘却やセンサー/体の摂動に対してアプローチは耐性があるか?
主な発見
- m-uvfa は、フラットな uvfa(Her)とマルチゴールモジュール専門家ベースライン(mg-me)よりも複数のモジュラーゴールをより速く学習する。
- 絶対的学習進捗に基づく内発的動機は、自己組織化された学習段階の連続(発達的カリキュラム)を生み出す。
- CURIOUS は忘却とセンサ Perturbations に対してロバストで、擾乱後にベースラインより早く回復する。
- LP-guided リプレイを使用すると、ランダムな目標選択と比べて、注意を引くモジュールが増えるときのパフォーマンス低下が小さい。
- モジュールベースの内発的選択は、学習可能な目標に学習資源を割り当て、現在解けないまたは過度に難しい目標からは学習を離脱するのに役立つ。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。