Skip to main content
QUICK REVIEW

[論文レビュー] On Improving Deep Reinforcement Learning for POMDPs

Pengfei Zhu, Xin Li|arXiv (Cornell University)|Apr 26, 2017
Elevator Systems and Control参考文献 16被引用数 80
ひとこと要約

ADRQN は LSTM によって処理される行動-観測ペアを導入し、部分的に観測可能な環境で深層強化学習を改善し、フリッキング/部分観測設定において DRQN および DDRQN を上回る。

ABSTRACT

Deep Reinforcement Learning (RL) recently emerged as one of the most competitive approaches for learning in sequential decision making problems with fully observable environments, e.g., computer Go. However, very little work has been done in deep RL to handle partially observable environments. We propose a new architecture called Action-specific Deep Recurrent Q-Network (ADRQN) to enhance learning performance in partially observable domains. Actions are encoded by a fully connected layer and coupled with a convolutional observation to form an action-observation pair. The time series of action-observation pairs are then integrated by an LSTM layer that learns latent states based on which a fully connected layer computes Q-values as in conventional Deep Q-Networks (DQNs). We demonstrate the effectiveness of our new architecture in several partially observable domains, including flickering Atari games.

研究の動機と目的

  • 部分的に観測される環境で、状態が完全に観測されない場合のロバストな学習を動機付ける。
  • ヒストリにアクションを組み込むことで信念推定を改善するモデルフリーのアーキテクチャを提案する。
  • LSTM を活用して行動-観測シーケンスを統合し、Q 値推定を導く。
  • 完全観測および部分観測の下で Atari 2600 ゲームで効果を示す。
  • POMDP 設定における性能向上を DRQN および DDRQN と比較して確立する。

提案手法

  • アクションを密結合層でエンコードして 512-D のアクション表現を得る。
  • アクション表現と CNN で抽出された観測特徴を結合して行動-観測ペアを構成する。
  • LSTM を用いて行動-観測ペアの系列を処理し潜在状態表現を推定する。
  • DQN における最終全結合層を介して LSTM の出力から Q 値を計算する。
  • エピソードからの長さ 10 のシーケンスで経験再生とターゲットネットワーク更新を用いて訓練する。
  • フリッキング(部分観測) Atari ゲームと完全観測設定で DRQN および DDRQN と比較して評価する。

実験結果

リサーチクエスチョン

  • RQ1部分観測下で、リカレントモデルへ行動情報を明示的に組み込むことは学習を改善するか。
  • RQ2ADRQN は POMDP 設定において既存の DRQN ベースのアプローチを上回るか。特に観測が間欠的に覆われる場合。
  • RQ3行動-観測の結合が部分観測ドメインでの訓練の安定性と学習効率にどう影響するか。

主な発見

ModelPong (testing) DRQN (± std)Pong (testing) DDRQN (± std)Pong (testing) ADRQN (± std)Chp.Cmd. (testing) DRQN (± std)Chp.Cmd. (testing) DDRQN (± std)Chp.Cmd. (testing) ADRQN (± std)Asteroids (testing) DRQN (± std)Asteroids (testing) DDRQN (± std)Asteroids (testing) ADRQN (± std)Double dunk (testing) DRQN (± std)Double dunk (testing) DDRQN (± std)Double dunk (testing) ADRQN (± std)Frostbite (testing) DRQN (± std)Frostbite (testing) DDRQN (± std)Frostbite (testing) ADRQN (± std)
Table 2 (standard setting)18.3(±2.0)18.6(±1.2)18.54(±2.3)1790(±744.3)1455(±596.0)1648(±658.1)983.8(±366.9)1096.6(±351.9)1025.4(±360.9)-12.8(±3.8)-13(±4.5)-15.2(±3.4)2412(±394.5)2245.5(±585.8)2290.5(±571.7)
Table 3 (flickering, obs. prob. 0.5)1.6(±7.8)1.9(±8.4)7(±4.6)1090(±409.2)1040(±392.8)1608(±707.9)871.4(±339.8)1033(±396.1)1040.2(±431.5)-14.4(±3.2)-13(±2.5)-13(±3.6)673.5(±503.0)393(±347.4)2002.5(±734.653)
  • ADRQN は完全観測設定で DRQN および DDRQN と同等の性能を達成する。
  • ADRQN は部分観測(フリッキング)設定で DRQN および DDRQN を大幅に上回る、複数の Atari ゲームで。
  • フリッキングした Frostbite などのタスクで ADRQN は訓練およびテスト時に顕著な利得を示し、信念推定の向上を示唆する。
  • 行動-観測の結合は訓練を加速し、部分観測性へのロバスト性を改善する。
  • 一般化実験では、観測確率が変動しても ADRQN は堅牢性を維持し、DRQN および DDRQN を上回る。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。