[論文レビュー] Never Give Up: Learning Directed Exploration Strategies
本論文はNGUという強化学習エージェントを紹介し、エピソディックおよびライフロングな novelty を用いて指向的探索ポリシーのファミリーを学習する。UVFAで訓練され、デモンストレーションなしでPitfall!を含むAtariで非ゼロ報酬を実現するなど、強力な結果を達成する。
We propose a reinforcement learning agent to solve hard exploration games by learning a range of directed exploratory policies. We construct an episodic memory-based intrinsic reward using k-nearest neighbors over the agent's recent experience to train the directed exploratory policies, thereby encouraging the agent to repeatedly revisit all states in its environment. A self-supervised inverse dynamics model is used to train the embeddings of the nearest neighbour lookup, biasing the novelty signal towards what the agent can control. We employ the framework of Universal Value Function Approximators (UVFA) to simultaneously learn many directed exploration policies with the same neural network, with different trade-offs between exploration and exploitation. By using the same neural network for different degrees of exploration/exploitation, transfer is demonstrated from predominantly exploratory policies yielding effective exploitative policies. The proposed method can be incorporated to run with modern distributed RL agents that collect large amounts of experience from many actors running in parallel on separate environment instances. Our method doubles the performance of the base agent in all hard exploration in the Atari-57 suite while maintaining a very high score across the remaining games, obtaining a median human normalised score of 1344.0%. Notably, the proposed method is the first algorithm to achieve non-zero rewards (with a mean score of 8,400) in the game of Pitfall! without using demonstrations or hand-crafted features.
研究の動機と目的
- 深層強化学習における制御可能な探索戦略を学習して堅牢な探索を動機づける。
- エピソディックとライフロングノベルティを組み合わせた内的報酬を開発し、探索を持続させる。
- UVFAを介して単一のニューラルネットワークを複数の探索-活用のトレードオフで共有する。
- 多数のアクターを用いた分散RL設定でのスケーラビリティを示す。
提案手法
- エピソディックメモリ内の制御可能な状態のk近傍法を介したエピソディックノベルティとRandom Network Distillationによるライフロングノベルティを組み合わせた内的報酬 r^i_t を計算する。
- 自己教師付きの逆ダイナミクス目的で制御可能な状態埋め込み f(x) を学習し、環境の制御可能な側面へノベルティを偏らせる。
- UVFA Q(x,a,β) を用いて、異なる探索重み β を持つポリシーのファミリーを学習し、純探索から活用までのスペクトルを実現する。
- 変換済み Retrace ダブルQ学習損失と優先リプレイを用いた分散・オフポリシー手法(R2D2)で訓練する。
- β 条件付け、前の行動、前の報酬、および β 特有の信号をエージェントの入力に埋め込む。
実験結果
リサーチクエスチョン
- RQ1単一のニューラルネットワークは、探索と活用のトレードオフが異なる複数の指向的探索ポリシーをサポートできるか?
- RQ2エピソディックとライフロングノベルティを組み合わせることで、エピソード間・環境を超えて持続する頑健な探索が生まれるか?
- RQ3そのような探索主導のポリシーは、Pitfall! のような難解な探索ゲームでデモなしに性能を向上させるか?
- RQ4多数のアクターが同時に経験を収集する分散RL設定において、NGUはどのようにスケールするか?
主な発見
- NGUは難易度の高い探索ゲームで強力なAtariベースラインより高い性能を達成し、Atari-57全体で中央値のヒト正規化スコア1344.0%を記録。
- NGUはPitfall!でデモなし・手作り特徴なしで非ゼロ報酬を実現(平均スコア約8,400)。
- 混合数 N を増やし、ライフロングノベルティに RND を用いると難解な探索ゲームの性能が向上。
- 多くの密度報酬Atariゲームで競争力あるいは優れた結果を得る一方、いくつかの設定(例:特定のゲームでNGU/N>1)は最良のベースラインに劣る場合がある。
- Atari-57 全体で NGU は中央値 1354.4% を達成(Nature DQN 95%、R2D2 1920.6% などと比較)、大半のゲームで強い性能を維持。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。