[論文レビュー] Robust Reinforcement Learning for Continuous Control with Model Misspecification
この論文は Robust MPO (R-MPO) と Soft Robust MPO (SRE-MPO) を導入し、遷移摂動下の最悪ケースリターンを最適化する。MPOをロバスト性とエントロピー正則化ベルマン演算子で拡張し、九つの MuJoCo ドメインと高次元の Shadow ハンドで性能向上を実証する。
We provide a framework for incorporating robustness -- to perturbations in the transition dynamics which we refer to as model misspecification -- into continuous control Reinforcement Learning (RL) algorithms. We specifically focus on incorporating robustness into a state-of-the-art continuous control RL algorithm called Maximum a-posteriori Policy Optimization (MPO). We achieve this by learning a policy that optimizes for a worst case expected return objective and derive a corresponding robust entropy-regularized Bellman contraction operator. In addition, we introduce a less conservative, soft-robust, entropy-regularized objective with a corresponding Bellman operator. We show that both, robust and soft-robust policies, outperform their non-robust counterparts in nine Mujoco domains with environment perturbations. In addition, we show improved robust performance on a high-dimensional, simulated, dexterous robotic hand. Finally, we present multiple investigative experiments that provide a deeper insight into the robustness framework. This includes an adaptation to another continuous control RL algorithm as well as learning the uncertainty set from offline data. Performance videos can be found online at https://sites.google.com/view/robust-rl.
研究の動機と目的
- 連続制御 RL における遷移ダイナミクスの摂動(モデルミススペシフィケーション)に対するロバスト性の動機付け。
- MPO にロバスト性を組み込み、それをエントロピー正則化 objectives へ拡張。
- 収縮特性を持つロバストおよびソフトロバストなエントロピー正則化ベルマン演算子を開発。
- 複数の MuJoCo ドメインと高次元の dexterous ハンドでロバスト性を経験的に検証。
- オフラインデータからの不確実性集合の学習や他のアルゴリズムへの適応など、追加分析を探索。
提案手法
- 標準の TD 誤差を、次状態の不確実性集合における最悪ケースの infimum に置き換えることでロバストベルマン演算子を導出。
- MPO のポリシー評価ステップにこれを組み込み、ロバスト値関数を学習し、ロバスト提案分布を介してロバストなポリシーを導出。
- 演算子をロバストおよびソフトロバストなエントロピー正則化版へ拡張し、収縮特性を証明。
- Robust Entropy-regularized MPO (RE-MPO) と Soft RE-MPO (SRE-MPO) を具体化し、E-MPO および MPO と比較。
- 九つの MuJoCo ドメインと Shadow ハンドでのロバスト性を実証し、不確実性集合設計、ドメインランダム化、オフラインデータ等の探索的分析を実施。
実験結果
リサーチクエスチョン
- RQ1遷移摂動に対する最悪ケースのロバスト性を組み込むことは、モデルミススペシフィケーション下の連続制御タスクの性能を向上させるか。
- RQ2ロバストおよびソフトロバストなエントロピー正則化目的は、さまざまなドメインで標準の MPO と比較してどのように振る舞うか。
- RQ3ロバスト性の技術を他の RL アルゴリズムへ転用できるか、オフラインデータから不確実性集合を学習できるか。
- RQ4不確実性集合の設計とドメインランダム化がロバスト性パフォーマンスに与える影響は何か。
- RQ5Shadow ハンドのような高次元で機能的な制御に対して、ロバスト性はどの程度スケールするか。
主な発見
- Robust MPO (R-MPO) および Soft ROBUST MPO (SR-MPO) は、環境摂動がある九つの MuJoCo ドメインで非ロバスト相当よりも優れている。
- エントロピー正則化版 (RE-MPO および SRE-MPO) は、非ロバスト版と同等以上の性能を示し、場合によってはそれを上回る。
- ロバスト手法は、非ロバストな MPO と比較して高次元の Shadow ハンド課題でも性能向上を示す。
- Soft-robust バリアントはしばしば非ロバストベースラインを上回るが、より大きな摂動では利点が薄れる場合がある。
- オフラインデータから不確実性集合を学習する DDR-MPO は、データ量の増加に伴い競争力のあるまたは優れたロバスト性を示し、大規模データセットで R-MPO の性能に収束する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。