Skip to main content
QUICK REVIEW

[論文レビュー] Maximum a Posteriori Policy Optimisation

Abbas Abdolmaleki, Jost Tobias Springenberg|arXiv (Cornell University)|Jun 14, 2018
Reinforcement Learning in Robotics参考文献 28被引用数 167
ひとこと要約

MPOは相対エントロピー目的の座標上昇に基づくオフポリシー強化学習アルゴリズムを導入し、EMのようなEステップ(サンプルの再重み付け)とMステップ(監視付きMAP更新)を通じてデータ効率が高く堅牢なポリシー最適化を実現する。

ABSTRACT

We introduce a new algorithm for reinforcement learning called Maximum aposteriori Policy Optimisation (MPO) based on coordinate ascent on a relative entropy objective. We show that several existing methods can directly be related to our derivation. We develop two off-policy algorithms and demonstrate that they are competitive with the state-of-the-art in deep reinforcement learning. In particular, for continuous control, our method outperforms existing methods with respect to sample efficiency, premature convergence and robustness to hyperparameter settings while achieving similar or better final performance.

研究の動機と目的

  • 連続制御における深層強化学習のサンプル非効率性と不安定性を動機づけ、解決する。
  • データ効率とOn-policy法の安定性を組み合わせたオフポリシーアルゴリズムを開発する。
  • 軌道の再重み付け(Eステップ)とポリシー更新(Mステップ)を分離するEM様フレームワークを活用する。
  • MPOを既存のRLアプローチと関連付け、ハイパーパラメータへのロバスト性を示す。

提案手法

  • ポリシー最適性の下界(ELBO)を用いた変分推論としてのRLの定式化。
  • EM様の座標上昇法を用い、Eステップ(固定ポリシー状況でq(a|s)を最適化)とMステップ(q加重付きで監視付きMAPによりポリシーパラメータを更新)を交互に行う。
  • Eステップをパラメトリックまたは非パラメトリックな変分分布q(a|s)で実装する;非パラメトリックの場合のqのクローズドフォームを導出:q(a|s) ∝ π(a|s,θ) exp(Qθ(s,a)/η)。
  • Eステップでの最適化を安定化するためHard KL制約を導入するか、温度ベースの正則化パラメータαを等価に使用する。
  • Mステップでは、前のポリシーに対するKL制約を伴う重み付き最大事後推定更新でポリシーパラメータを更新し、一般化を改善する。
  • 安定したオフポリシーQ関数評価とQネットワークのブootstrappedターゲットにはRetraceを用いる。

実験結果

リサーチクエスチョン

  • RQ1MPOはデータ効率を高く保ちつつハイパーパラメータへのロバスト性を持つか。
  • RQ2オフポリシーのEM様最適化フレームワークはTRPO/PPO、DDPGなどの最先端手法とデータ効率と安定性の点で同等かそれを上回るか。
  • RQ3高次元タスク(例: 56自由度ヒューマノイド)とオフポリシー学習条件下でMPOはどう機能するか。
  • RQ4q(a|s)の非パラメトリック vs パラメトリック分布の性能と安定性への影響は何か。

主な発見

  • MPOは広範な連続制御タスクで強いデータ効率と頑健な学習を達成する。
  • 高次元制御問題において、サンプル効率、早期収束、およびハイパーパラメータの頑健性の点でMPOは最先端手法を上回る。
  • オフポリシーのEM様アプローチは、ポリシー更新のためにQ関数の勾配を必要とせず安定性を提供する。
  • EステップでHard KL制約を用い、MステップでKL制約を用いることで安定性と一般化を向上させる。
  • 非パラメトリック q(a|s) の最適化はサンプルとQ値を活用して行動を再重み付けする閉形式解を生み出す。
  • 実験ではMPOが比較的少量のデータ(しばしば1000軌道以下)で全タスクを解決することを示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。