[論文レビュー] Stochastic Neural Networks for Hierarchical Reinforcement Learning
本論文は、情報理論的正則化項を用いた確率的ニューラルネットワーク(SNN)を用いて多様なスキルの範囲を事前学習し、次にこれらのスキルの上に高レベルの方策を学習して、疎報酬の下流タスクを解決する枠組みを提示する。
Deep reinforcement learning has achieved many impressive results in recent years. However, tasks with sparse rewards or long horizons continue to pose significant challenges. To tackle these important problems, we propose a general framework that first learns useful skills in a pre-training environment, and then leverages the acquired skills for learning faster in downstream tasks. Our approach brings together some of the strengths of intrinsic motivation and hierarchical methods: the learning of useful skill is guided by a single proxy reward, the design of which requires very minimal domain knowledge about the downstream tasks. Then a high-level policy is trained on top of these skills, providing a significant improvement of the exploration and allowing to tackle sparse rewards in the downstream tasks. To efficiently pre-train a large span of skills, we use Stochastic Neural Networks combined with an information-theoretic regularizer. Our experiments show that this combination is effective in learning a wide span of interpretable skills in a sample-efficient way, and can significantly boost the learning performance uniformly across a wide range of downstream tasks.
研究の動機と目的
- 疎報酬で長い時間 horizon を持つタスクにおける学習の動機づけと課題解決。
- 最小限のタスク特異的指導で有用なスキルの広範な範囲を発見する事前学習段階を提案。
- 多モードの方策を表現しスキルの多様性を可能にする確率的ニューラルネットワーク(SNN)を導入。
- 独立で解釈可能なスキルを奨励する情報理論的正則化項を組み込む。
- 学習したスキルの上に高レベルの方策を訓練して下流学習を加速させる。
提案手法
- スキル発見を導く代理報酬を用いた事前学習環境を使用。
- 潜在変数を入力として決定論的なフィードフォワード網に組み込む確率的ニューラルネットワークで方策をモデル化。
- 双線形相互作用を介して潜在変数を統合し、多様性とモード性を高める。
- 関連する状態成分に関する潜在コードの情報量を最大化するMIベースのボーナスを追加。
- 学習した低レベルのスキルを固定し、一定のホライズンでスキルを選択する高レベルのマネージャを訓練して階層的制御を可能にする。
- 事前学習と下流タスクの両方でTRPO(Trust Region Policy Optimization)を用いて方策を最適化。

実験結果
リサーチクエスチョン
- RQ1MIボーナスを持つSNNは、信頼性高く大規模で解釈可能なスキルの範囲を生成できるか。
- RQ2代理報酬による事前学習は、下流の疎報酬タスクにおける探索とサンプル効率を向上させるか。
- RQ3学習したスキルを用いた階層的方策は、迷路と収集タスクでベースラインと比較して学習を加速するか。
- RQ4潜在変数の双線形統合は、スキル多様性と下流の性能をどの程度向上させるか。
主な発見
- 双線形統合とMI正則化を備えたSNNは、幅広く解釈可能なスキルを生み出す。
- 学習したスキルの階層的利用は、非階層的なベースラインと比較して疎報酬環境での探索を改善する。
- 代理報酬とMIボーナスを組み合わせた事前学習は、迷路と餌集めタスクの学習を複数回の試行で加速する。
- 低レベルの方策を共有しつつ高レベルのタスク特有のマネージャを学習することで、サンプル複雑性を低減する。
- MI正則化SNNを使用した場合、一部の下流タスクでパフォーマンスが向上し分散が低下することを示す。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。