[論文レビュー] Robust Deep Reinforcement Learning against Adversarial Perturbations on State Observations
本論文は状態観測の敵対的摂動に対してDRLを頑健にするための状態対向MDP(SA-MDP)フレームワークと体系的な方策正則化手法を提案し、PPO、DDPG、DQNが強力なホワイトボックス攻撃下で改善を示す。
A deep reinforcement learning (DRL) agent observes its states through observations, which may contain natural measurement errors or adversarial noises. Since the observations deviate from the true states, they can mislead the agent into making suboptimal actions. Several works have shown this vulnerability via adversarial attacks, but existing approaches on improving the robustness of DRL under this setting have limited success and lack for theoretical principles. We show that naively applying existing techniques on improving robustness for classification tasks, like adversarial training, is ineffective for many RL tasks. We propose the state-adversarial Markov decision process (SA-MDP) to study the fundamental properties of this problem, and develop a theoretically principled policy regularization which can be applied to a large family of DRL algorithms, including proximal policy optimization (PPO), deep deterministic policy gradient (DDPG) and deep Q networks (DQN), for both discrete and continuous action control problems. We significantly improve the robustness of PPO, DDPG and DQN agents under a suite of strong white box adversarial attacks, including new attacks of our own. Additionally, we find that a robust policy noticeably improves DRL performance even without an adversary in a number of environments. Our code is available at https://github.com/chenhongge/StateAdvDRL.
研究の動機と目的
- 状態観測における敵対的摂動に対するDRLの頑健性を動機づけ、正式化する。
- 最悪ケースの観測摂動を捉えるSA-MDPを導入し、基本的な性質を分析する。
- 複数のDRLアルゴリズム(PPO、DDPG、DQN)に適用可能な理論的に principled な頑健な方策正則化を開発する。
- 多様な環境で強力なホワイトボックス攻撃下でも経験的な頑健性の利得を示す。
提案手法
- 敵は、摂動集合 B(s) の範囲内で決定論的かつ定常的な関数 \u0006nu(s) によって観測を摂動させるSA-MDPを定義する。
- 固定方策と敵対者に対するSA-MDPのベルマン方程式を導出し、最適な敵に対する収縮性の結果を示す。
- 摂動に対する方策感度を制限する総変動/KL発散に関連する頑健な方策正則化を提案する(式 5、6、8)。
- 確率的方策(PPO)に対して、KLに基づく界と凸緩和または内部最大化にSGLDを用いて正則化を特化する(セクション3.2)。
- 決定論的方策(DDPG)に対して、行動をガウスノイズで平滑化し、扱いやすいDDPG正則化を導出する(式 6)。
- DQN向けには、上位行動を摂動に対して頑健に保つヒンジ型に似た項で正則化を特化する(式 8)。
実験結果
リサーチクエスチョン
- RQ1State観測の敵対的摂動は、PPO、DDPG、DQNといった標準アルゴリズムのポリシーにどのような影響を与えるか?
- RQ2離散・連続アクション空間の双方で頑健性を向上させるための理論的に根拠づけられた正則化を設計できるか?
- RQ3頑健性の限界を説明しアルゴリズム介入を導く principled な枠組み(SA-MDP)は存在するか?
- RQ4正則化されたポリシーは非敵対的な設定でも性能を維持しつつ敵対的頑健性を向上させるか?
- RQ5DRLエージェントの頑健性のギャップを露呈する効果的な敵対的攻撃戦略は何か?
主な発見
- SA-MDPフレームワークは、最適な敵が定常的最適方策を破壊しうることを示し、頑健な正則化の必要性を動機づける。
- KL/DVベースの正則化は摂動による方策の発散と密接に関連し、攻撃時の性能低下を抑える。
- 正則化されたPPO、DDPG、DQNは、新しいRSおよびMAD攻撃を含む強力なホワイトボックス攻撃下で顕著な頑健性の改善を示す。
- 正則化は一部環境で敵対者がいなくても性能向上をもたらす可能性があり、敵対的設定を超える広い利点を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。