QUICK REVIEW

[論文レビュー] Deep Recurrent Q-Learning for Partially Observable MDPs

Matthew Hausknecht, Peter Stone|arXiv (Cornell University)|Jul 23, 2015

Reinforcement Learning in Robotics参考文献 11被引用数 686

ひとこと要約

この論文は、部分的に観測可能なMDP（POMDP）を扱うために、長短期記憶（LSTM）ネットワークをディープQネットワーク（DQN）に統合したDeep Recurrent Q-Networks（DRQN）を提案する。単一フレームの入力を再帰的ネットワークで処理することで、DRQNは時間的依存性を捉え、完全観測性のAtariゲームではDQNと同等の性能を達成するとともに、ちらつきのある画面など部分的観測性下ではDQNを顕著に上回る性能を発揮する。

ABSTRACT

Deep Reinforcement Learning has yielded proficient controllers for complex tasks. However, these controllers have limited memory and rely on being able to perceive the complete game screen at each decision point. To address these shortcomings, this article investigates the effects of adding recurrency to a Deep Q-Network (DQN) by replacing the first post-convolutional fully-connected layer with a recurrent LSTM. The resulting extit{Deep Recurrent Q-Network} (DRQN), although capable of seeing only a single frame at each timestep, successfully integrates information through time and replicates DQN's performance on standard Atari games and partially observed equivalents featuring flickering game screens. Additionally, when trained with partial observations and evaluated with incrementally more complete observations, DRQN's performance scales as a function of observability. Conversely, when trained with full observations and evaluated with partial observations, DRQN's performance degrades less than DQN's. Thus, given the same length of history, recurrency is a viable alternative to stacking a history of frames in the DQN's input layer and while recurrency confers no systematic advantage when learning to play the game, the recurrent net can better adapt at evaluation time if the quality of observations changes.

研究の動機と目的

ディープQネットワーク（DQN）が部分的に観測可能なMDP（POMDP）を扱う際の限界、すなわち状態情報が不完全またはノイズ混じりであるという点を是正すること。
再帰的ニューラルネットワークが、ちらつきのあるゲーム画面のような部分的観測環境での性能向上に寄与するかどうかを調査すること。
完全観測下で学習した再帰的ポリシーが、部分的観測下でテストされた際、非再帰的ポリシーと比較してより良い一般化性能を示すかどうかを評価すること。
DRQNが、不完全な観測下で学習した場合でも、観測性が向上するにつれて性能を維持または向上させられるかどうかを特定すること。

提案手法

標準DQNの最初の全結合層を、時間的処理を可能にする長短期記憶（LSTM）層に置き換えることで、フレーム列の時間的処理を可能にする。
単一フレームの入力をLSTMで処理し、履歴情報を符号化する隠れ状態を維持することで、部分的観測下でも速度や運動を推定できるようにする。
経験リプレイとターゲットネットワークを含むDQNと同一の訓練手順を採用するが、時間軸に沿った誤差逆伝播（backpropagation through time）を再帰的アーキテクチャに適用する。
時間差分学習を用いてDRQNをエンドツーエンドで訓練し、損失関数 $ L(s,a| heta_i) = ig{(}r + eta ext{max}_{a'} Q(s',a'| heta_i) - Q(s,a| heta_i) ig{)}^2 $ を最小化する。勾配更新は確率的勾配降下法を用いる。
標準的なAtariゲームとそのちらつきバージョンでの性能を評価する。ちらつきバージョンでは、各タイムステップでフレームの一部しか表示されない。
複数の指標を用いてDRQNと標準DQNを比較する：完全観測下での性能、部分的観測性（ちらつき）下での性能、観測性が向上するに従ってのスケーリング性能。

実験結果

リサーチクエスチョン

RQ1DQNが記憶能力に制限を受けるため失敗するような部分的観測環境において、LSTMのような再帰的ネットワークが性能向上に寄与するか。
RQ2完全観測性のゲームで学習したDRQNが、部分的観測性下で評価された際、DQNと比較してより優れた一般化性能を示すか。
RQ3部分的観測下で学習した場合、観測性が向上するに従って性能がどのように変化するか。
RQ4Atariゲームにおける時間的依存性の処理に関して、DQNにおけるフレームスタッキングと比較して、再帰性に系統的な利点があるか。

主な発見

DRQNは標準的なAtariゲームではDQNと同等の性能を達成しており、再帰性が完全観測可能なMDPにおいて性能を低下させないことを示している。
Atariゲームのちらつきバージョンでは、DRQNの性能低下はDQNよりもなだらかであり、あらゆるちらつきレベルで顕著に高いスコアを記録している。
部分的観測下で学習し、フレームの可視性が向上する条件下で評価した場合、DRQNの性能は観測性に比例して単調に向上し、すべてのフレームが可視化された際にはほぼ完璧なスコアに達している。
完全観測下で学習し、部分的観測下でテストした場合、DRQNはあらゆるちらつきレベルでDQNよりも元の性能の割合を高く維持している。
非ちらつきのAtariゲームでは、DRQNとDQNとの間に顕著な性能差はほとんど認められず、完全観測環境下では再帰性に系統的な利点がないことが示唆されている。
PongとFrostbiteは外れ値のゲームとして特定され、DRQNが顕著な向上を示している。これは、再帰性が疎な視覚的手がかりから運動を推定する必要があるタスクにおいて最も効果的であることを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。