Skip to main content
QUICK REVIEW

[論文レビュー] Intrinsically Motivated Goal Exploration Processes with Automatic Curriculum Learning

Sébastien Forestier, Portelas, Rémy|arXiv (Cornell University)|Aug 7, 2017
Reinforcement Learning in Robotics参考文献 52被引用数 174
ひとこと要約

本論文は Intrinsically Motivated Goal Exploration Processes (IMGEP) を形式化し、自動カリキュラム学習を備えたモジュラー型集団ベースの IMGEP アーキテクチャ (AMB) を導入します。2D、Minecraft、そして実機のヒューマノイドロボット実験を横断して、多様なスキルとステッピングストーンとなる能力を発見することを検証します。

ABSTRACT

Intrinsically motivated spontaneous exploration is a key enabler of autonomous developmental learning in human children. It enables the discovery of skill repertoires through autotelic learning, i.e. the self-generation, self-selection, self-ordering and self-experimentation of learning goals. We present an algorithmic approach called Intrinsically Motivated Goal Exploration Processes (IMGEP) to enable similar properties of autonomous learning in machines. The IMGEP architecture relies on several principles: 1) self-generation of goals, generalized as parameterized fitness functions; 2) selection of goals based on intrinsic rewards; 3) exploration with incremental goal-parameterized policy search and exploitation with a batch learning algorithm; 4) systematic reuse of information acquired when targeting a goal for improving towards other goals. We present a particularly efficient form of IMGEP, called AMB, that uses a population-based policy and an object-centered spatio-temporal modularity. We provide several implementations of this architecture and demonstrate their ability to automatically generate a learning curriculum within several experimental setups. One of these experiments includes a real humanoid robot exploring multiple spaces of goals with several hundred continuous dimensions and with distractors. While no particular target goal is provided to these autotelic agents, this curriculum allows the discovery of diverse skills that act as stepping stones for learning more complex skills, e.g. nested tool use.

研究の動機と目的

  • Intrinsically Motivated Goal Exploration Processes (IMGEP) を、自己生成された目標とカリキュラムの一般的な枠組みとして形式化する。
  • モジュラー型集団ベースの IMGEP アーキテクチャである AMB を導入し、物体中心の目標空間とステッピングストーンを保持する突然変異を特徴とする。
  • ロボティクスを含む多様な実験と実機のヒューマノイドロボットを通じて、自動カリキュラム学習と効率的なスキル発見を実証する。
  • self-organized exploration yields diverse skills and enables complex capabilities via stepping-stones.
  • モジュラー型 IMGEP のバリアントをベースラインと比較し、サンプル効率とカリキュラム品質を評価する。

提案手法

  • 目標を全軌道にわたるパラメータ化された適応度関数として定義し、抽象的な目標空間と多様な目的形を可能にする。
  • 目標間でデータを再利用しつつ、並行探索と利用のループを備えた IMGEP アーキテクチャを提案する。
  • 能力進捗に基づく内発的報酬を実装し、目標選択と学習焦点を導く。
  • モジュラー型集団ベース IMGEP (AMB) を開発:物体中心のモジュラー目標空間、集団ベースの政策、変異時にステッピングストーンを保持する SSPMutation。
  • 学習進捗駆動の目標サンプリング(目標空間ポリシを介して)と高速なメモリベースのメタポリシーを探索に使用し、活用のための非同期オフライン/バッチ学習を可能にする。
  • Goal-space sampling と変異戦略の影響を研究するため、Active Model Babbling (AMB) および Random Model Babbling (RMB) などのバリアントを提供する。
Figure 1: Schematic representation of possible learning curves for different goals and the associated exploration preference for an agent with intrinsic rewards based on learning progress. Left: schematic learning curves associated to $5$ imaginary goals: the y axis represents the competence of the
Figure 1: Schematic representation of possible learning curves for different goals and the associated exploration preference for an agent with intrinsic rewards based on learning progress. Left: schematic learning curves associated to $5$ imaginary goals: the y axis represents the competence of the

実験結果

リサーチクエスチョン

  • RQ1内発的動機づけ探索は、オープンエンドな目標空間全体で学習カリキュラムを自律的に生成できるか?
  • RQ2モジュラーで物体中心の目標構築は、サンプル効率と発見されるスキルの多様性を向上させるか?
  • RQ3ステッピングストーンを保持する変異は、道具使用と複雑なスキル習得にどう影響するか?
  • RQ4探索効率とスキルの多様性という点で、AMBはベースラインの RMB とどう比較されるか?
  • RQ5高次元の感覚入力を持つ実機ロボット環境へ、自動カリキュラム学習をどの程度転送できるか?

主な発見

  • 学習進捗に基づく内発的報酬は、情報価値のある能力向上をもたらす目標へ探索を効果的に偏らせる。
  • モジュラー型で物体中心の目標空間は、組織的な探索を可能にし、目標間で知識の再利用を促進してスキル発見を改善する。
  • ステッピングストーンを保持する突然変異(SSPMutation)は、変異をタスク構造に合わせることで道具使用タスクの進歩を維持するのを助け、ステッピングストーン周辺の探索を支援する。
  • 学習進捗サンプリングに駆動された AMB バリアントは、ベースラインと比較してサンプル効率と行動の多様性を改善し、実機のヒューマノイドロボット実験を含む。
  • 自動生成されたカリキュラムは、明示的なターゲット目標や手作りのカリキュラムなしに、様々なスキルとステッピングストーン(例:ネスト型の道具使用)を発見できるようにする。
Figure 3: 2D Simulated Tool-Use Environment. A simulated robotic arm with a gripper can grab sticks and move toys. The gripper has to close near the handle of a stick to grab it. One magnetic toy and one Velcro toy are reachable with their corresponding stick. Other toys cannot be moved (static or t
Figure 3: 2D Simulated Tool-Use Environment. A simulated robotic arm with a gripper can grab sticks and move toys. The gripper has to close near the handle of a stick to grab it. One magnetic toy and one Velcro toy are reachable with their corresponding stick. Other toys cannot be moved (static or t

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。