[論文レビュー] Surprise-Based Intrinsic Motivation for Deep Reinforcement Learning
本論文は、学習された遷移モデルを介して驚異ベースの内発的報酬を導入し、深層強化学習における探索を促進する。驚異性(surprisal)とkステップ学習進捗をインセンティブとして用い、連続制御およびAtari RAMタスク全般で探索の改善を示す。
Exploration in complex domains is a key challenge in reinforcement learning, especially for tasks with very sparse rewards. Recent successes in deep reinforcement learning have been achieved mostly using simple heuristic exploration strategies such as $ε$-greedy action selection or Gaussian control noise, but there are many tasks where these methods are insufficient to make any learning progress. Here, we consider more complex heuristics: efficient and scalable exploration strategies that maximize a notion of an agent's surprise about its experiences via intrinsic motivation. We propose to learn a model of the MDP transition probabilities concurrently with the policy, and to form intrinsic rewards that approximate the KL-divergence of the true transition probabilities from the learned model. One of our approximations results in using surprisal as intrinsic motivation, while the other gives the $k$-step learning progress. We show that our incentives enable agents to succeed in a wide range of environments with high-dimensional state spaces and very sparse rewards, including continuous control tasks and games in the Atari RAM domain, outperforming several other heuristic exploration techniques.
研究の動機と目的
- 報酬がまれな環境における深層RLの探索を動機づける。
- 真の遷移ダイナミクスと学習済み遷移ダイナミクスの不一致に基づく、スケーラブルな内発的報酬を開発する。
- 探索を導くために、ポリシーと同時に遷移モデルを学習する。
- VIMEを含む既存の探索法と比較して、surprisalとk-step learning progressのインセンティブを評価する。
提案手法
- 内発的報酬を真のPと学習済みP_phiのKL発散として定式化し、2つのスケーラブルな近似を導出する。
- surprisalを用いる:内発的報酬は -log P_phi(s'|s,a)に比例する。
- k-step学習進捗を用いる:内発的報酬は log P_phi_t(s'|s,a) - log P_phi_{t-k}(s'|s,a)に基づく。
- 正則化とKL発散制約(Eq. 11)を用いた監視型風の損失で、ダイナミクスモデルP_phiを共同更新する。
- ポリシーを、環境リターンと真のダイナミクスと学習済みダイナミクス間の期待KLのη倍を足したものを最大化するよう更新する(Eq. 2)。
- 内発的報酬を境界内に保ち、安定性のためにボーナスを正規化するようηを調整する。
実験結果
リサーチクエスチョン
- RQ1高次元で報酬がまれなDRL設定において、surprisalと学習進捗を内発的報酬とすることは探索を改善するのか?
- RQ2これらの内発的インセンティブは、連続制御およびAtari RAM領域におけるVIMEやL2モデル予測誤差などの既存手法とどう比較されるか?
- RQ3単一のフォワードダイナミクスモデルが、決定論的・確率的ダイナミクスを含む多様なタスク全体で、スケーラブルで堅牢な内発的動機づけを提供できるか?
- RQ4タスクを横断して学習進捗ボーナスにおけるkの影響は何か?
主な発見
- surprisalインセンティブは、連続制御やAtari RAMドメインを含む幅広いタスクで堅牢で改善された探索をもたらす。
- k-step学習進捗は一部のタスクで役立つが、環境とk値に応じてsurprisalより劣る場合がある。
- SurprisalはしばしばL2モデル予測誤差を上回り、計算コストが低いままVIMEと競合する。
- このアプローチは、完全に因数分解されたGaussianダイナミクスモデルとフォワードパスで動作し、VIMEより高速化を提供する。
- SurprisalはSwimmerGatherやVenture-RAMのような難しいタスクでは他の内発的動機づけのベースラインを一般に上回る。
- ナイーブな探索が失敗する場合でもSurprisalは有効であり、まれな報酬設定において有意義な探索を促すことを示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。