[論文レビュー] Stochastic Latent Actor-Critic: Deep Reinforcement Learning with a Latent Variable Model
SLAC は高次元の観測から確率的潜在モデルを学習し、その後潜在空間で RL を実行する。画像からのサンプル効率の高い高性能な連続制御を実現する。
Deep reinforcement learning (RL) algorithms can use high-capacity deep networks to learn directly from image observations. However, these high-dimensional observation spaces present a number of challenges in practice, since the policy must now solve two problems: representation learning and task learning. In this work, we tackle these two problems separately, by explicitly learning latent representations that can accelerate reinforcement learning from images. We propose the stochastic latent actor-critic (SLAC) algorithm: a sample-efficient and high-performing RL algorithm for learning policies for complex continuous control tasks directly from high-dimensional image inputs. SLAC provides a novel and principled approach for unifying stochastic sequential models and RL into a single method, by learning a compact latent representation and then performing RL in the model's learned latent space. Our experimental evaluation demonstrates that our method outperforms both model-free and model-based alternatives in terms of final performance and sample efficiency, on a range of difficult image-based control tasks. Our code and videos of our results are available at our website.
研究の動機と目的
- 表現学習とタスク学習を分離することにより、画像ベースのRLにおける表現学習のボトルネックに対処する。
- RL のための有益な潜在状態を提供する環境の潜在系列モデルを学習する。
- 潜在状態を critic に用いながら、観測と行動の履歴上に直接ポリシーを訓練する。
- 難易度の高い画像ベースの制御タスクにおいて、サンプル効率と強力な最終性能を示す。
提案手法
- 画像観測からPOMDPを表現するために、ガウス prior と潜在ダイナミクスを備えた確率的逐次潜在変数モデルを提案する。
- 観測と行動の系列から潜在状態を学習するためのアモルタイズド変分推論モデルを訓練する。
- この潜在モデルを最大エントロピー actor-critic RL 目的と組み合わせ、 critic には潜在状態サンプルを、 actor には観測/行動の履歴を用いる。
- 学習目的をモデル目的項とポリシー目的項を含む結合ELBOとして定式化し、同時に表現学習と制御を可能にする。
- フィルタリング分布から潜在状態をサンプリングするためにリパラメータ化を用い、トレーニングを安定化させるために二つの critic を用いたソフトQ学習を適用する。
- DeepMind Control Suite および OpenAI Gym の画像ベースの連続制御ベンチマークで SLAC を評価する。
実験結果
リサーチクエスチョン
- RQ1画像観測から学習された確率的潜在表現は連続制御タスクにおける RL を加速させることができるか?
- RQ2潜在変数モデルによる表現学習をポリシー学習から分離することで、モデルフリーおよびモデルベースのベースラインと比較してサンプル効率と最終性能が向上するか?
- RQ3観測と行動の履歴に基づいて意思決定を割り当てる actor が latent 空間で RL を実行する場合、部分観測性に対して頑健か?
- RQ4潜在ダイナミクスを持つ RL に対する変分 ELBO フレームワークを用いた control-as-inference の視点はどのように機能するか?
- RQ5潜在モデルのアーキテクチャ上の選択肢(時系列依存性、確率性)はどれが性能に最も影響を与えるか?
主な発見
- SLAC は難易度の高い画像ベースの連続制御タスクで、モデルフリーおよびモデルベースのベースラインと比較して競争力のある、または優れた最終性能を達成する。
- 潜在空間アプローチはサンプル効率を改善しつつ、モデルフリー RL に類似した強力な漸近性能を維持する。
- 時間的依存性を持つ完全に確率的な逐次潜在モデルは、 RL の表現学習において非逐次的または決定論的な変種を上回る。
- actor に観測と行動の履歴を用い、critic を潜在状態サンプルで訓練することで、安定した効果的な学習を達成する。
- SLAC は DVRL を大きく上回り、画像ベースのベンチマークで以降の手法と同等以上の性能を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。