QUICK REVIEW

[論文レビュー] Action Robust Reinforcement Learning and Applications in Continuous Control

Chen Tessler, Yonathan Efroni|arXiv (Cornell University)|Jan 26, 2019

Adversarial Robustness in Machine Learning参考文献 43被引用数 65

ひとこと要約

この論文は、RL における行動不確実性に対する二つの action-robust 基準（PR-MDP と NR-MDP）を formalize し、PR-MDP に対する理論的保証を提供し、ディープRL拡張と AR-DDPG による連続制御タスクでの頑健性と性能の向上を示しています。

ABSTRACT

A policy is said to be robust if it maximizes the reward while considering a bad, or even adversarial, model. In this work we formalize two new criteria of robustness to action uncertainty. Specifically, we consider two scenarios in which the agent attempts to perform an action $a$, and (i) with probability $α$, an alternative adversarial action $\bar a$ is taken, or (ii) an adversary adds a perturbation to the selected action in the case of continuous action space. We show that our criteria are related to common forms of uncertainty in robotics domains, such as the occurrence of abrupt forces, and suggest algorithms in the tabular case. Building on the suggested algorithms, we generalize our approach to deep reinforcement learning (DRL) and provide extensive experiments in the various MuJoCo domains. Our experiments show that not only does our approach produce robust policies, but it also improves the performance in the absence of perturbations. This generalization indicates that action-robustness can be thought of as implicit regularization in RL problems.

研究の動機と目的

現実的な連続制御タスクにおける行動不確実性に対する頑健性を RL に対して動機づける。
adversarial または perturbed な行動をモデル化する二つの頑健性基準（PR-MDP と NR-MDP）を導入する。
PR-MDP と NR-MDP の理論的性質と対偶性を確立し、ポリシー反復系を導出する。
ディープRLへ拡張し、MuJoCo 実験を通じて頑健な性能と一般化を示す幅広い検証を行う。

提案手法

PR-MDP を確率的に adversary が悪い行動を取る確率 alpha を用いたゼロ和ゲームとして定義し、最大化-最小化の目的を導出する。
NR-MDP を adversary が選択された行動に摂動を加えるモデルとして定義し、その性質を分析する。
PR-MDP について決定論的な定常最適ポリシーの存在と強対偶性を証明する。
PR-MDP（確率的頑健 PI と Soft PR-PI）のポリシー反復スキームを提案し、それらの収束性を議論する。
連続制御における actor と adversary ネットワークと joint actions の critic を統合した AR-DDPG（Action-Robust DDPG）を開発する。
PR-MDP および NR-MDP 設定における actor および adversary の勾配ベースの更新規則を提供する（Proposition 5）。

実験結果

リサーチクエスチョン

RQ1行動不確実性を RL に正式にモデル化して頑健なポリシーを生み出すにはどうすればよいか。
RQ2PR-MDP および NR-MDP フレームワークの理論的性質（存在、対偶性、収束）はどのようなものか。
RQ3これらの action-robust 基準をディープRLへ拡張しても、実践的に頑健性、あるいは改善された性能を得られるか。
RQ4MuJoCo ドメイン間で、摂動強度を変化させた場合に action-robust メソッドは移転可能か。
RQ5連続制御における確率的 action-robust（PR-MDP）とノイズ付き action-robust（NR-MDP）の実践的挙動とトレードオフはどうなるか。

主な発見

PR-MDP には定義された値があり、強対偶性を持つ決定論的定常最適ポリシーが存在する。
NR-MDP は通常、最適解に対して確率的ポリシーを必要とし、決定論的ポリシー群内で強対偶性が成り立たない場合がある。
Soft PR-PI は誤差ゼロ条件下でナッシュ均衡値へ収束し、PR-PI も同様に収束する；どちらもエージェントと adversary の更新の混成を活用する。
AR-DDPG は DRL の実装例として MuJoCo ドメインで頑健なポリシーを学習でき、多くの場合摂動なしでも性能を向上させることがあり、行動頑健性が暗黙的な正則化として機能することを示唆する。
経験的結果は、ハイパーパラメータ（例：alpha）が頑健性と性能に影響を与え、PR-MDP が多くの設定で NR-MDP より安定した挙動を示すことを示唆している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。