Skip to main content
QUICK REVIEW

[論文レビュー] A Laplacian Framework for Option Discovery in Reinforcement Learning

Marlos C. Machado, Marc G. Bellemare|arXiv (Cornell University)|Mar 2, 2017
Reinforcement Learning in Robotics参考文献 31被引用数 76
ひとこと要約

この論文は、固有目的を導入(内発的報酬)し固有行動を導出することによって、プロト値関数が暗黙のうちにオプションを定義する方法を示し、タスクに依存しない多スケールの探索オプション(固有オプション)をラプラシアンPVFを介して発見できることを示している。これらのアイデアを表形式のドメインと関数近似(Atariゲームを含む)で実証している。

ABSTRACT

Representation learning and option discovery are two of the biggest challenges in reinforcement learning (RL). Proto-value functions (PVFs) are a well-known approach for representation learning in MDPs. In this paper we address the option discovery problem by showing how PVFs implicitly define options. We do it by introducing eigenpurposes, intrinsic reward functions derived from the learned representations. The options discovered from eigenpurposes traverse the principal directions of the state space. They are useful for multiple tasks because they are discovered without taking the environment's rewards into consideration. Moreover, different options act at different time scales, making them helpful for exploration. We demonstrate features of eigenpurposes in traditional tabular domains as well as in Atari 2600 games.

研究の動機と目的

  • PVFsが暗黙的にオプションを定義することを示すことで、表現学習とオプション発見を結びつける。
  • PVFsから導出される内発的報酬関数として固有目的を導入する。
  • 固有目的の最適方策としての固有行動を定義し、それらから固有オプション(開始/終了)を導出する。
  • 固有オプションが探索と学習を複数のドメイン(表形式および関数近似を含む)で改善することを示す。
  • 大規模な状態空間やAtariのようなAMIにも適用可能な、サンプルベースの近似的固有オプション発見のアプローチを提供する。

提案手法

  • 正規化グラフラプラシアンを用いて、状態空間の大域的な幾何を捉えるPVFを得る。
  • 固有ベクトルeと状態特徴phiを用いて、固有目的 r_i^e(s,s') = e^T(phi(s') - phi(s)) を定義する。
  • 固有目的由来の内発的報酬と明示的な終了アクションを持つ拡張MDP M_i^e を構築する。
  • 各固有目的に対して内発的報酬を最大化する方策として固有行動を導出する。
  • Q^e(s,a) がすべてのアクションについて <= 0 となるときに終了し、正のQ値が存在する開始集合を持つ方策として固有オプションを形成する。
  • 全隣接性を用いずに固有目的を回復するための、出現行列TとSVDを用いたサンプルベースの手法を提供し、線形関数近似へ拡張可能。

実験結果

リサーチクエスチョン

  • RQ1PVFsを用いて報酬情報なしで有用なタスク非依存オプション(固有オプション)を自動的に誘導できるか?
  • RQ2固有オプションは複数の時間スケールで動作することと、状態空間全体の容易なシーケンス化を可能にすることで探索を改善するか?
  • RQ3固有オプションはボトルネック中心のオプションより探索に有効か?
  • RQ4サンプルベースの手法を通じて、機能近似や大規模環境(例:Atari)で固有オプションを発見できるか?
  • RQ5少数の固有オプションと多数の固有オプションは学習効率と最終性能にどのような影響を与えるか?

主な発見

  • 固有オプションは従来のボトルネックに焦点を当てるのではなく、状態空間の主成分方向を辿る傾向がある。
  • 固有目的を介して発見されたオプションは、複数の時間スケールと容易なシーケンス化を可能にすることで探索を改善する。
  • 多くのドメインで、固有オプションは報酬の蓄積と学習を加速する一方で、少なすぎると探索を妨げることがある。
  • ボトルネックのみのオプションは探索を妨げる可能性があるのに対し、固有オプションはドメインを横断するより頑健な探索パターンを提供する。
  • サンプルベースの出現行列/ SVD 法は固有オプションを近似でき、線形関数近似へ拡張可能で、Atari風のタスクに意味のあるオプションの証拠がある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。