QUICK REVIEW

[論文レビュー] Recurrent Predictive State Policy Networks

Ahmed Hefny, Zita Marinho|arXiv (Cornell University)|Mar 5, 2018

Reinforcement Learning in Robotics被引用数 1

ひとこと要約

本稿では、部分的に観測可能な環境における信念状態をモデル化するために予測状態表現（PSR）を用いる微分可能な再帰的アーキテクチャである、再帰的予測状態方策（RPSP）ネットワークを提案する。予測状態表現フィルタの再帰的組み合わせと報酬に基づく方策勾配および予測誤差最小化によって訓練された反応型方策を組み合わせることで、RPSPはOpenAI Gymのロボット制御タスクにおいてGRUや有限記憶モデルを上回る優れた性能を達成する。

ABSTRACT

We introduce Recurrent Predictive State Policy (RPSP) networks, a recurrent architecture that brings insights from predictive state representations to reinforcement learning in partially observable environments. Predictive state policy networks consist of a recursive filter, which keeps track of a belief about the state of the environment, and a reactive policy that directly maps beliefs to actions, to maximize the cumulative reward. The recursive filter leverages predictive state representations (PSRs) (Rosencrantz and Gordon, 2004; Sun et al., 2016) by modeling predictive state-- a prediction of the distribution of future observations conditioned on history and future actions. This representation gives rise to a rich class of statistically consistent algorithms (Hefny et al., 2018) to initialize the recursive filter. Predictive state serves as an equivalent representation of a belief state. Therefore, the policy component of the RPSP-network can be purely reactive, simplifying training while still allowing optimal behaviour. Moreover, we use the PSR interpretation during training as well, by incorporating prediction error in the loss function. The entire network (recursive filter and reactive policy) is still differentiable and can be trained using gradient based methods. We optimize our policy using a combination of policy gradient based on rewards (Williams, 1992) and gradient descent based on prediction error. We show the efficacy of RPSP-networks under partial observability on a set of robotic control tasks from OpenAI Gym. We empirically show that RPSP-networks perform well compared with memory-preserving networks such as GRUs, as well as finite memory models, being the overall best performing method.

研究の動機と目的

従来の信念状態が維持しにくい部分的観測環境における強化学習の課題に対処すること。
予測状態表現（PSR）を活用した微分可能で再帰的なアーキテクチャを構築し、効率的かつ統計的に一貫性のある信念追跡を実現すること。
PSRを十分な信念表現として用いることで、純粋な反応型方策を実現し、学習を単純化しながら最適性を保持すること。
報酬に基づく方策勾配に加えて予測誤差を損失関数に組み込むことで、学習の安定性と性能を向上させること。
ロボット制御タスクにおける記憶保持型ネットワーク（例：GRU）および有限記憶モデルと比較して、RPSPの実験的評価を行うこと。

提案手法

RPSPネットワークは、履歴と行動を条件とした将来の観測の確率的予測（予測状態）を、PSR理論を用いて再帰的に維持するフィルタを採用する。
予測状態表現は、先行研究（Hefnyら、2018年）の統計的に一貫性のあるアルゴリズムを用いて初期化され、信頼性の高い信念推定を保証する。
方策部は純粋な反応型であり、予測状態を直接行動にマッピングする。これにより学習が単純化され、エンドツーエンドの微分可能性が実現される。
ネットワークはハイブリッド損失関数を用いて訓練される。そのうちの一つは累積報酬に基づく方策勾配（Williams, 1992）であり、もう一つは信念の正確性を向上させるための予測誤差に基づく勾配降下法である。
全アーキテクチャは微分可能であり、バックプロパゲーションを用いて再帰的フィルタと方策を同時に最適化できる。
PSRの解釈は、信念表現および学習中において両方で用いられ、一般化性と一貫性の向上に寄与する。

実験結果

リサーチクエスチョン

RQ1予測状態表現は、部分的観測強化学習における微分可能で再帰的な信念モデルを構築するために効果的に利用可能か？
RQ2予測状態に基づく反応型方策は、GRUのような記憶拡張型モデルと同等またはそれ以上の性能を達成できるか？
RQ3予測誤差を学習目的関数に組み込むことで、方策学習と信念の正確性がどの程度向上するか？
RQ4ロボット制御タスクにおける部分的観測環境において、RPSPは有限記憶モデルおよびGRUベースのエージェントと比較してどの程度の性能を示すか？

主な発見

RPSPネットワークは、部分的観測下のOpenAI Gymのロボット制御タスクの複数の設定において、GRUベースの記憶ネットワークおよび有限記憶モデルを上回る性能を発揮する。
損失関数に予測誤差を組み込むことで、予測状態表現の正確性が向上し、方策学習が促進される。
PSRによる信念状態のおかげで、純粋な反応型方策が実現可能であり、明示的な記憶が不要である。これにより、学習とアーキテクチャの両方が単純化される。
微分可能アーキテクチャのおかげで、信念追跡と方策の効果的な共同最適化が可能となり、安定的かつ高性能な方策が得られる。
実験的結果から、RPSPは比較対象のベースラインの中で全体的に最も優れた性能を示しており、特に長時間スパンかつ部分的観測の環境下で顕著である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。