QUICK REVIEW

[論文レビュー] Deep Reinforcement Learning amidst Lifelong Non-Stationarity

Annie Xie, J. Michael Harrison|arXiv (Cornell University)|Jun 18, 2020

Reinforcement Learning in Robotics参考文献 60被引用数 25

ひとこと要約

本稿では、時間変動する環境パラメータの潜在表現を潜在変数モデルとダイナミクス事前分布を用いて学習することで、生涯にわたる非定常性をモデル化する、オフポリシー深層強化学習アルゴリズムLILACを提案する。ポリシーとクリティックを推定されたタスクパラメータに条件づけることで、LILACは、動的および報酬の持続的かつ構造的なシフトが生じる環境において、SAC や PPO といった標準的なオフポリシー手法を上回り、エピソード的変化に対してもエピソードリセットを必要とせずに高い性能を維持する。

ABSTRACT

As humans, our goals and our environment are persistently changing throughout our lifetime based on our experiences, actions, and internal and external drives. In contrast, typical reinforcement learning problem set-ups consider decision processes that are stationary across episodes. Can we develop reinforcement learning algorithms that can cope with the persistent change in the former, more realistic problem settings? While on-policy algorithms such as policy gradients in principle can be extended to non-stationary settings, the same cannot be said for more efficient off-policy algorithms that replay past experiences when learning. In this work, we formalize this problem setting, and draw upon ideas from the online learning and probabilistic inference literature to derive an off-policy RL algorithm that can reason about and tackle such lifelong non-stationarity. Our method leverages latent variable models to learn a representation of the environment from current and past experiences, and performs off-policy RL with this representation. We further introduce several simulation environments that exhibit lifelong non-stationarity, and empirically find that our approach substantially outperforms approaches that do not reason about environment shift.

研究の動機と目的

観察不能で時間的に変化するパラメータによって引き起こされる、時間とともに変化する環境の動的特性と報酬の非定常性に起因する、生涯にわたる非定常性の課題に対処すること。
定常性を仮定する標準的なオフポリシー手法の限界を克服し、過去の経験を活用して変化する環境に適応できるオフポリシー強化学習アルゴリズムの開発。
タスクパラメータがエピソード間で確率的に変化する構造的POMDPの変種、すなわち動的パラメータMDP（DP-MDP）として問題を形式化すること。
推定されたパラメータに条件づけられたポリシーの学習と、環境の潜在的表現の同時学習により、非定常設定でも効率的かつ安定した学習を可能にすること。
持続的かつ周期的、変動率の異なるシフトを示すシミュレーテッド環境において、本手法のロバストネスと一般化性能を検証すること。

提案手法

本手法は、観察から隠れたタスクパラメータ z を推定する潜在変数モデルを用いて、非定常MDPの表現を可能にする。
タスクパラメータの時間的変化をモデル化するため、pϕ(z′|z) としてのダイナミクス事前分布を採用し、将来の環境シフトの予測を可能にする。
ポリシーとクリティックネットワークは、推定された潜在パラメータ z に条件づけられるため、エージェントは予測可能な変化に適応した行動をとることができる。
強化学習を確率的推論としての枠組みに従い、グラフィカルモデルを用いてポリシー学習と潜在状態推定を統合する。
部分的トラジェクトリから z を効率的に推定できる認識ネットワークを用いたアンモライズド推論により、エピソード内でのリアルタイム適応が可能になる。
オフポリシーの経験リプレイと潜在変数モデリングを組み合わせることで、エピソード間で環境パラメータが変化しても、サンプル効率の高い学習が可能になる。

実験結果

リサーチクエスチョン

RQ1オフポリシー深層強化学習アルゴリズムは、時間とともに変化する動的特性と報酬が存在する環境において、生涯にわたる非定常性を効果的に扱えるか？
RQ2明示的な教師信号なしに、過去の経験のみを用いて、将来の環境シフトを予測できるか？
RQ3標準的なオフポリシー手法と比較して、潜在変数モデルは非定常制御タスクにおけるサンプル効率と性能をどの程度向上できるか？
RQ4環境変化の速度が変動する場合、特に急激で周期的なシフトに対しても、本手法はロバストであるか？
RQ5動的特性と報酬関数の両方が同時に変化する環境において、本モデルは一般化可能か？

主な発見

LILACは、持続的かつ周期的な非定常性が生じる環境において、PPO や SAC より顕著に優れた性能を示し、エピソード全体にわたり高い報酬を維持する一方、ベースライン手法は適応に失敗する。
ゴール移動速度が 0.2 から 0.8 ラジアン/エピソードに変化する Sawyer 技術的到達タスクでは、LILACの性能は環境変化の速度にほとんど依存せず、ロバスト性を示している。
定常状態ではSACと同等の性能を達成しており、非定常性が存在しない状況でも高いサンプル効率を維持していることが確認された。
2D オープンワールド環境では、リセットなしに継続的かつエピソードを跨ぐ非定常シフトを効果的に処理し、長時間にわたるホライズンで安定したポリシーを学習した。
HC WindVel環境では、動的特性と報酬関数の両方の同時シフトが生じるが、他の手法は収束しなかったのに対し、LILACは効果的に対処した。
LILACにおける非定常状態と定常状態の間の性能差は、将来の z の推定が不完全であることに起因しており、オンライン推論やベイジアンフィルタリングによる改善の余地があると示唆している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。