QUICK REVIEW

[論文レビュー] Exploiting Hierarchy for Learning and Transfer in KL-regularized RL

Dhruva Tirumala, Hyeonwoo Noh|arXiv (Cornell University)|Mar 18, 2019

Reinforcement Learning in Robotics参考文献 61被引用数 20

ひとこと要約

本論文は、方策とデフォルト行動の両方に潜在変数を追加することで構造的なインダクティブバイアスとモジュラーライド・トランスファー学習を可能にする階層的KL正則化強化学習フレームワークを提案する。階層的構造を活用することで、非階層的ベースラインと比較して連続制御タスクにおける学習速度の向上とトランスファー性能の向上を達成した。

ABSTRACT

As reinforcement learning agents are tasked with solving more challenging and diverse tasks, the ability to incorporate prior knowledge into the learning system and to exploit reusable structure in solution space is likely to become increasingly important. The KL-regularized expected reward objective constitutes one possible tool to this end. It introduces an additional component, a default or prior behavior, which can be learned alongside the policy and as such partially transforms the reinforcement learning problem into one of behavior modelling. In this work we consider the implications of this framework in cases where both the policy and default behavior are augmented with latent variables. We discuss how the resulting hierarchical structures can be used to implement different inductive biases and how their modularity can benefit transfer. Empirically we find that they can lead to faster learning and transfer on a range of continuous control tasks.

研究の動機と目的

構造的なインダクティブバイアスを組み込むことで、複雑な強化学習タスクにおけるサンプル効率性とトランスファーの課題に取り組む。
方策とデフォルト行動を階層的に構造化することで、低レベルのスキルや高レベルの目標といった行動のモジュラーライド・トランスファーを可能にする。
方策とデフォルト行動の両方に潜在変数を導入することで、先行研究のKL正則化強化学習を一般化し、より豊かなインダクティブバイアスを可能にする。
連続制御およびグリッドワールド環境における実験的検証を通じて、階層的構造が学習速度とトランスファー性能の向上に寄与することを確認する。

提案手法

方策とデフォルト行動の両方に潜在変数を追加して階層的構造を形成し、モジュラーや構造的なインダクティブバイアスを可能にする。
方策が学習済みのデフォルト行動に近づくように正則化されたKL正則化目的関数を用い、デフォルト行動自体も階層的モデルである。
二段階のアーキテクチャを採用：高レベル方策（HL）は潜在変数上で動作し、低レベル方策（LL）は行動を生成する。HLは潜在コードによってLLを制御する。
デフォルト方策における状態情報へのアクセスを制限することで情報の非対称性を導入し、特定の行動的コンponentsの一般化とトランスファーを制御可能にする。
確率的モデリングと事後分布エントロピー正則化を活用して、階層的モデルの効率的なオフポリシー学習アルゴリズムを開発する。
探索とKL正則化のバランスを調整するための事後分布エントロピーコストハイパーパrameter αを導入し、安定性とサンプル効率性を向上させる。

実験結果

リサーチクエスチョン

RQ1KL正則化強化学習における階層的構造は、連続制御タスクにおけるサンプル効率性とトランスファー学習をどのように向上させるか？
RQ2方策とデフォルト行動の両方に潜在変数を導入することで、より柔軟で構造的なインダクティブバイアスはどのように実現されるか？
RQ3デフォルト方策における情報の非対称性は、特定の行動的コンponentsの一般化とトランスファーにどのように影響を与えるか？
RQ4学習速度とトランスファー性能の観点から、階層的モデリングは非階層的ベースラインをどの程度上回るか？

主な発見

階層的フレームワークは、複数の連続制御タスクにおいて非階層的ベースラインと比較して、より高速な学習と優れたトランスファー性能を達成した。
方策とデフォルト行動の両方に潜在変数を用いることで、特にスキルの再利用を要するタスクにおいて、より効果的でモジュラーなトランスファーが可能になった。
デフォルト方策における情報の非対称性により、高レベルの目標の選択的一般化が可能になった一方で、低レベルのスキル構造は保持された。
統計的効率性が向上し、収束に必要な環境インタラクション回数が削減された。
Ant、Ball、およびグリッドワールドタスクにおける実験結果から、サンプル効率性とトランスファー精度の両面で一貫した向上が確認された。
ハイパーパrameterチューニングの結果、事後分布エントロピーコスト α が探索と正則化のバランスを決定づける重要な役割を果たしており、最適な値はタスクによって異なることがわかった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。