Skip to main content
QUICK REVIEW

[論文レビュー] Model-Based Active Exploration

Pranav Shyam, Wojciech Jaśkowski|arXiv (Cornell University)|Oct 29, 2018
Reinforcement Learning in Robotics参考文献 42被引用数 42
ひとこと要約

MAX は 前方モデルのアンサンブルを用いて 学習可能な未知を能動的に探索するために 予測される未来の不一致を測定し、離散環境と連続環境の両方で効率的な探索を可能にし、反応的ベースラインよりデータ効率を改善します。

ABSTRACT

Efficient exploration is an unsolved problem in Reinforcement Learning which is usually addressed by reactively rewarding the agent for fortuitously encountering novel situations. This paper introduces an efficient active exploration algorithm, Model-Based Active eXploration (MAX), which uses an ensemble of forward models to plan to observe novel events. This is carried out by optimizing agent behaviour with respect to a measure of novelty derived from the Bayesian perspective of exploration, which is estimated using the disagreement between the futures predicted by the ensemble members. We show empirically that in semi-random discrete environments where directed exploration is critical to make progress, MAX is at least an order of magnitude more efficient than strong baselines. MAX scales to high-dimensional continuous environments where it builds task-agnostic models that can be used for any downstream task.

研究の動機と目的

  • 高次元のRL環境における反応的探索の非効率性を動機づけ、解決する。
  • モデルの不一致に基づく原理的でベイズに触発された探索目的を提案する。
  • ブートストラップアンサンブルと計算可能な発散度測度を開発して新規性を推定する。
  • 下流タスクのために再利用可能なタスク非依存ダイナミクスモデルを構築する探索を可能にする。

提案手法

  • 探索を、前方モデルのアンサンブルに跨る次状態分布の Jensen-Shannon Divergence (JSD) によって測定される情報利得を最大化する問題として定式化する。
  • 経験データで訓練されたブートストラップアンサンブルを用いて環境ダイナミクスの事前分布を近似する。
  • 探索MDPを、効用 u(s,a) をアンサンブル予測の不一致に等しいものとして定義する。
  • u(s,a) をアンサンブル平均エントロピー差(JSD)を用いて計算し、連続空間では Jensen-Rényi Divergence(2次 Rényi エントロピー)を用いる。
  • ノイズの多い環境でモデル不確実性への感度を調整するために温度調整された分散上限を使用する。
  • 各ステップで内部計画問題(Explore MDP)を解いて探索方策を導出し、その後実データを収集してアンサンブルを更新する。

実験結果

リサーチクエスチョン

  • RQ1前方モデルのアンサンブルを用いて、学習可能な未知を狙って能動的に探索を計画することは可能か?
  • RQ2発散ベースの効用(JSD/JRD)は、離散・連続設定のいずれにおいても反応的探索ボーナスとどのように比較されるか?
  • RQ3MAX は高次元の連続環境にスケールし、下流タスクのデータ効率を向上させるか?

主な発見

  • 離散チェーン環境では、MAX は約15エピソードで遷移の100% を探索し、反応的ベースラインは60エピソードで40% に達する。
  • Ant Maze の連続環境では、 MAX は約40エピソード(12kステップ)で迷路の最奥部に到達し、反応的ベースラインを上回った。
  • Half Cheetah では、MAX によって収集されたデータをモデルベースRLで活用することで、反応的ベースラインと比べ下流の性能が向上する。
  • MAX と TVAX(いずれもアクティブ法)は、Ant Maze や Half Cheetah のような連続領域で反応法(JDRX および PERX)を上回り、特に MAX は強力な性能を示す。
  • 本手法は学習可能な不確実性と学習不能ノイズを識別し、環境が確率的またはノイズの多いダイナミクスを含む場合にも頑健性を維持する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。