QUICK REVIEW

[論文レビュー] Deep Successor Reinforcement Learning

Tejas D. Kulkarni, Ardavan Saeedi|arXiv (Cornell University)|Jun 8, 2016

Reinforcement Learning in Robotics参考文献 37被引用数 97

ひとこと要約

本稿では、価値関数を後続表現（SR）と報酬予測に分解する深層強化学習フレームワーク、Deep Successor Reinforcement Learning（DSR）を紹介する。このアプローチにより、遠隔的な報酬変化への迅速な適応と、ランダム方策からのロールアウトから得られる部分目標の発見が可能になる。DSRは、生のピクセル観測からエンドツーエンドで訓練可能であり、報酬シフトに対する感受性が向上し、グリッドワールドおよび3Dナビゲーション環境でも有効な部分目標抽出を実現している。

ABSTRACT

Learning robust value functions given raw observations and rewards is now possible with model-free and model-based deep reinforcement learning algorithms. There is a third alternative, called Successor Representations (SR), which decomposes the value function into two components -- a reward predictor and a successor map. The successor map represents the expected future state occupancy from any given state and the reward predictor maps states to scalar rewards. The value function of a state can be computed as the inner product between the successor map and the reward weights. In this paper, we present DSR, which generalizes SR within an end-to-end deep reinforcement learning framework. DSR has several appealing properties including: increased sensitivity to distal reward changes due to factorization of reward and world dynamics, and the ability to extract bottleneck states (subgoals) given successor maps trained under a random policy. We show the efficacy of our approach on two diverse environments given raw pixel observations -- simple grid-world domains (MazeBase) and the Doom game engine.

研究の動機と目的

生の観測からスパースまたは遅延報酬の下で、頑健な価値関数を学習する課題に対処すること。
標準的なモデルフリー強化学習の限界である、遠隔的報酬の変化に対する価値関数の迅速な適応を可能にすること。
ランダム方策下で学習された後続表現から、階層的強化学習のための意味のある部分目標（ボトルネック状態）を抽出すること。
生のセンサ入力から後続表現と報酬関数を同時に学習するエンドツーエンドの深層学習フレームワークを構築すること。

提案手法

DSRは、生の画像を状態特徴に変換する共有特徴エンコーダ（CNN）を備えた深層ニューラルネットワークを用いる。
現在の状態を条件として、各行動における将来の状態占有確率（SR）を予測する別個の後続ネットワーク（u_α）を採用する。
特徴から入力状態を再構築する深層畳み込みデコーダを用い、自己教師付き事前学習を可能にする。
線形回帰器により各状態での即時の報酬を予測し、SRと報酬重みの内積により価値推定を行う：Q(s,a) ≈ m_sa · w。
経験再生と確率的勾配降下法を用いてモデルを訓練し、SRと報酬部の更新を交互に実行することで安定性を確保する。
ランダム方策下で収集したSR表現に対してノーマライズドカットを適用し、環境内の構造的ボトルネックを特定することで部分目標を抽出する。

実験結果

リサーチクエスチョン

RQ1標準的なモデルフリー強化学習と比較して、後続表現は遠隔的報酬の変化に対する適応をより迅速に可能にするか？
RQ2DSRは、複雑な環境において生のピクセル観測から有用な後続表現と報酬関数を直接学習できるか？
RQ3ランダム方策下で学習された後続表現から、信頼性のある部分目標を抽出できるか？
RQ4価値関数をSRと報酬に分解することで、スパース報酬設定におけるサンプル効率と価値関数の感受性が向上するか？

主な発見

DSRは、遠隔的報酬の変更後に新しい価値関数へ迅速に収束を示し、SRを固定したまま報酬ヘッドの重み付けを再計算するだけで実現した。
グリッドワールド環境では、ゴールでの報酬を1.0から3.0に引き上げた場合、数千年ステップで適応を示し、報酬シフトに対する感受性が顕著に高まった。
ランダム方策下のSR表現に対してノーマライズドカットを適用した部分目標抽出は、ドン環境における部屋の入り口など、意味のあるボトルネック状態を的確に特定した。
マップベースおよびVizDoom環境の両方で、潜在的な構造を反映した一貫性のある環境パーティションが得られた。
SRと報酬部の交互最適化により、エンドツーエンド学習における一般的な不安定性の問題を回避し、DSRフレームワークは安定した訓練を維持した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。