[論文レビュー] Efficient Exploration with Self-Imitation Learning via Trajectory-Conditioned Policy.
本論文では、過去の成功した軌道のメモリバッファを活用して、報酬が疎な強化学習における効率的な探索を可能にする軌道条件付き方策を提案する。多様な軌道に条件づけられた方策の更新とそれらを越えての拡張を促進することで、エキスパートのデモやランダムリセットを一切用いずに、Montezuma's Revenge や Pitfall といった困難なアーケードゲームで最先端の性能を達成した。
Reinforcement learning with sparse rewards is challenging because an agent can rarely obtain non-zero rewards and hence, gradient-based optimization of parameterized policies can be incremental and slow. Recent work demonstrated that using a memory buffer of previous successful trajectories can result in more effective policies. However, existing methods may overly exploit past successful experiences, which can encourage the agent to adopt sub-optimal and myopic behaviors. In this work, instead of focusing on good experiences with limited diversity, we propose to learn a trajectory-conditioned policy to follow and expand diverse past trajectories from a memory buffer. Our method allows the agent to reach diverse regions in the state space and improve upon the past trajectories to reach new states. We empirically show that our approach significantly outperforms count-based exploration methods (parametric approach) and self-imitation learning (parametric approach with non-parametric memory) on various complex tasks with local optima. In particular, without using expert demonstrations or resetting to arbitrary states, we achieve the state-of-the-art scores under five billion number of frames, on challenging Atari games such as Montezuma's Revenge and Pitfall.
研究の動機と目的
- 報酬が疎な強化学習における課題に対処すること。この状況ではエージェントが非ゼロ報酬をほとんど得られず、結果として方策最適化が遅延する。
- 過去の成功した軌道に過剰に依存する既存の自己模倣学習手法の限界を克服すること。これにより、局所最適解に陥りやすく、短視眼的な行動が生じる。
- 保存された成功した軌道を単に模倣するのではなく、それらを基盤として拡張することで、状態空間の多様な領域を探索可能にする。
- エキスパートのデモや任意の状態リセットに依存せずに、複雑な環境(例:局所最適値を有するアーケードゲーム)におけるサンプル効率と性能を向上させること。
提案手法
- 本手法は、過去の成功した軌道を格納するメモリバッファを用いて、探索を誘導する。
- 多様な過去の軌道から一般化できるように、軌道条件付き方策を学習させ、元の経路を越えての探索を促進する。
- 保存された軌道における模倣損失と、内発的興味(intrinsic curiosity)または内発的形状(intrinsic shaping)を組み合わせて、新しい状態の探索を促進する。
- 軌道コンテキストに応じて動的に方策更新を条件づけることで、過去の成功の活用と新しい状態領域の探索のバランスを取る。
- カウントベースの内発的報酬や外部リセットメカニズムに依存せず、代わりにメモリバッファを多様な行動的事前分布の源として用いる。
実験結果
リサーチクエスチョン
- RQ1標準的な自己模倣学習と比較して、軌道条件付き方策は報酬が疎な環境における探索効率を向上させることができるか?
- RQ2保存された軌道を越えて拡張することで、局所最適値を有する環境において、より良い一般化と性能が達成できるか?
- RQ3エキスパートのデモやランダムな状態リセットを一切用いずに、本手法が困難なアーケードゲームで最先端の結果を達成できるか?
- RQ4過去の軌道の多様性は、エージェントが新しい高報酬状態を発見する能力にどのように影響するか?
主な発見
- 提案手法は、報酬が疎で局所最適値を有する複雑なタスクにおいて、カウントベースの探索手法を著しく上回った。
- エキスパートのデモや任意の状態リセットを用いずに、50億フレームの時点で Montezuma's Revenge および Pitfall で最先端の性能を達成した。
- 保存された軌道を単に模倣するのではなく、それらを基盤として拡張することで、エージェントが状態空間の多様な領域に到達できるようになった。
- 過去の経験に過剰に依存しないため、短視眼的な行動が軽減され、長期的な学習効率が向上した。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。