QUICK REVIEW

[論文レビュー] Wasserstein Robust Reinforcement Learning

Mohammed Amin Abdullah, Hang Ren|arXiv (Cornell University)|Jul 30, 2019

Reinforcement Learning in Robotics参考文献 46被引用数 37

ひとこと要約

WR2Lは、参照ダイナミクスを取り巻くepsilon-Wasserstein制約を伴うミンマックスゲームとしてロバスト強化学習を定式化し、高次元で連続的なタスクに対してスケーラブルなゼロ次ソルバーを提供します。

ABSTRACT

Reinforcement learning algorithms, though successful, tend to over-fit to training environments hampering their application to the real-world. This paper proposes $ ext{W} ext{R}^{2} ext{L}$ -- a robust reinforcement learning algorithm with significant robust performance on low and high-dimensional control tasks. Our method formalises robust reinforcement learning as a novel min-max game with a Wasserstein constraint for a correct and convergent solver. Apart from the formulation, we also propose an efficient and scalable solver following a novel zero-order optimisation method that we believe can be useful to numerical optimisation in general. We empirically demonstrate significant gains compared to standard and robust state-of-the-art algorithms on high-dimensional MuJuCo environments.

研究の動機と目的

遷移ダイナミクスが変化した場合の一般化を改善するために、RLにおけるロバスト性を動機づける。
WR2LをWasserstein制約を備えた一般的なミン–マックスフレームワークとして導入する。
手作りの摂動モデルを用意せずに、連続的な状態-行動空間でのロバスト性を実現する。
ダイナミクスとポリシーを交互に更新するスケーラブルなソルバーを提供する。

提案手法

ロバストRL目的をmax_theta min_phi E_tau~p_theta^phi[R_total(tau)]として定義する。
許容する遷移摂動を基準ダイナミクスP0の周りのepsilon-Wassersteinボールに制限する。
ポリシーpi_thetaと摂動ダイナミクスphiをパラメータ化し、交互最適化で解く。
制約を扱いやすくするため、ポイントごとではなく平均的なWasserstein制約を用いる。
制約内でphiを効率的に更新するため、2階のTaylor近似に基づくヘシアン近似を開発する。
勾配情報が得られない場合のダイナミクス更新には、ゼロ次（勾配なし）法を提示する。

実験結果

リサーチクエスチョン

RQ1連続的な状態-行動空間でのモデル摂動を扱うために、ロバストRLをどのように定式化できるか？
RQ2Wasserstein距離はRL遷移について原理的で幾何学的に配慮されたロバスト性制約を提供できるか。
RQ3明示的なダイナミクスモデルなしで、得られるミン–マックス問題を効率的に解けるか。
RQ4提案されたWR2Lフレームワークは、高次元制御タスクでのロバスト性と性能を改善するか。

主な発見

WR2Lは、標準的なベースラインおよび一部のロバストベースラインと比較して、高次元のMuJoCo環境におけるロバスト性能を顕著に改善する。
アルゴリズムは、個別の状態-行動空間と離散/連続の両方を統一的なWassersteinベースのフレームワーク内で扱う。
勾配情報を必要とせずに遷移ダイナミクスをスケーラブルに更新できる新規ゼロ次最適化法を提供する。
ヘシアン基づく制約近似により、基準ダイナミクス周りのepsilon-Wassersteinボール下での最適化を実現可能にする。
学習する完全なダイナミクスモデルを必要とせず、パラメータ化可能なダイナミクスを用いた微分可能なシミュレータやソルバーを活用できる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。