[論文レビュー] Robust Reinforcement Learning on State Observations with Learned Optimal Adversary
本論文は ATLA を提案する。オンラインで強力な敵対者を学習し状態観測を摂動させつつ頑健な DRL エージェントを訓練する枠組みで、連続制御タスクにおける強力な敵対者に対して最先端の頑健性を示す。
We study the robustness of reinforcement learning (RL) with adversarially perturbed state observations, which aligns with the setting of many adversarial attacks to deep reinforcement learning (DRL) and is also important for rolling out real-world RL agent under unpredictable sensing noise. With a fixed agent policy, we demonstrate that an optimal adversary to perturb state observations can be found, which is guaranteed to obtain the worst case agent reward. For DRL settings, this leads to a novel empirical adversarial attack to RL agents via a learned adversary that is much stronger than previous ones. To enhance the robustness of an agent, we propose a framework of alternating training with learned adversaries (ATLA), which trains an adversary online together with the agent using policy gradient following the optimal adversarial attack framework. Additionally, inspired by the analysis of state-adversarial Markov decision process (SA-MDP), we show that past states and actions (history) can be useful for learning a robust agent, and we empirically find a LSTM based policy can be more robust under adversaries. Empirical evaluations on a few continuous control environments show that ATLA achieves state-of-the-art performance under strong adversaries. Our code is available at https://github.com/huanzhang12/ATLA_robust_RL.
研究の動機と目的
- 状態観測が敵対的に摂動された場合の RL の頑健性を動機づける。
- SA-MDP フレームワーク下の最適敵対者を特徴づけ、オンラインで学習可能であることを示す。
- ATLA を提案し強力な敵対者と頑健なエージェントを共に訓練する。
- 履歴(メモリ)のロバスト政策学習における役割を探り、連続制御タスクで評価する。
提案手法
- 状態観察の摂動を SA-MDPとしてモデル化し、固定方策に対して最適な敵対者を導出。
- 最適敵対者の学習を DRL 問題として位置づけ、ポリシー勾配(PPO)で訓練。
- アルゴリズム1 を提案し、摂動集合 B(s) への射影を用いてオンライン学習敵対者を訓練。
- アルゴリズム2(ATLA)を提案し、敵対者最適化とエージェント最適化の更新を交互に行う。
- 摂動下でのロバスト性を高めるため履歴を活用する LSTM ベースの方策を使用。
- 敵対者が固定される場合の SA-MDP と POMDP の理論的関連を提供。
実験結果
リサーチクエスチョン
- RQ1有界な観測摂動の下でエージェントの報酬を最小にする最適な敵対者をどう計算・近似できるか。
- RQ2学習された敵対者を用いた交互訓練は、従来の敵対訓練と比較してDRLエージェントの頑健性を改善するか。
- RQ3状態摂動下で履歴(メモリ)は頑健な RL に有利か、リカレント方策は役立つか。
- RQ4強い敵対的摂動下での連続制御タスクにおける ATLA の既存の頑健性手法との比較。
主な発見
| Env. | ε (perturbation budget) | Method | Natural Reward | Attack Reward | Critic | Random | MAD | Snooping | RS | Optimal |
|---|---|---|---|---|---|---|---|---|---|---|
| PPO | 0.0 | PPO | 3167 ± 521 | 636 ± 9 | 1464 ± 523 | 2101 ± 793 | 1410 ± 655 | 2234 ± 1103 | 794 ± 238 | 636 ± 9 |
| Hopper | 0.075 | SA-PPO | 3705 ± 2 | 1076 ± 791 | 2710 ± 801 | 2652 ± 835 | 2509 ± 838 | 1130 ± 42 | 1076 ± 791 | 1076 ± 791 |
| PPO | 0. Mau | PPO | 4472 ± 635 | 1086 ± 516 | 3424 ± 1295 | 3007 ± 1200 | 2869 ± 1271 | 2786 ± 962 | 1336 ± 654 | 1086 ± 516 |
| Walker2d | 0.05 | SA-PPO | 4487 ± 61 | 2511 ± 1117 | 4867 ± 39 | 3668 ± 1789 | 3928 ± 1661 | 388? | 2908 ± 1136 | 2908 ± 1136 |
| Ant | 0.15 | PPO | 7117 ± 98 | -660 ± 218 | -? | -? | -? | -? | -660 ± 218 | |
| HalfCheetah | 0.15 | SA-PPO | 3632 ± 20 | 3283 ± 20 | 3619 ± 18 | 3624 ± 23 | 3616 ± 21 | 3283 ± 20 | 3028 ± 23 | 3028 ± 23 |
- 学習された敵対者は従来の攻撃よりも顕著に強力な摂動を生み出し、エージェントの報酬をより効果的に低下させる。
- ATLA は頑健性を向上させ、強い敵対者の下で複数の連続制御タスクにおいて最先端の性能を達成。
- SA-MDP/ATLA設定ではLSTMベースの方策がフォワードだけの方策より頑健性が高い。
- ATLA は関数近似器への明示的正則化を補完する頑健性の利点を提供。
- 最適敵対者の学習はエージェントのポリシー勾配のアクセスを必要としない(ブラックボックス敵対者)。
- 実験結果はATLAがいくつかの環境で明示的な正則化手法を上回ることを示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。