[論文レビュー] Robust Deep Reinforcement Learning against Adversarial Perturbations on State Observations
本論文は、DRL の頑健性を adversarial state perturbations に対して検討するための state-adversarial MDP (SA-MDP) を提案し、PPO、DDPG、DQN に適用できる原理的なポリシー正則化を提案して、強力な攻撃下での頑健性を向上させる。
A deep reinforcement learning (DRL) agent observes its states through observations, which may contain natural measurement errors or adversarial noises. Since the observations deviate from the true states, they can mislead the agent into making suboptimal actions. Several works have shown this vulnerability via adversarial attacks, but existing approaches on improving the robustness of DRL under this setting have limited success and lack for theoretical principles. We show that naively applying existing techniques on improving robustness for classification tasks, like adversarial training, is ineffective for many RL tasks. We propose the state-adversarial Markov decision process (SA-MDP) to study the fundamental properties of this problem, and develop a theoretically principled policy regularization which can be applied to a large family of DRL algorithms, including proximal policy optimization (PPO), deep deterministic policy gradient (DDPG) and deep Q networks (DQN), for both discrete and continuous action control problems. We significantly improve the robustness of PPO, DDPG and DQN agents under a suite of strong white box adversarial attacks, including new attacks of our own. Additionally, we find that a robust policy noticeably improves DRL performance even without an adversary in a number of environments. Our code is available at https://github.com/chenhongge/StateAdvDRL.
研究の動機と目的
- SA-MDP を用いて DRL における状態観測の adversarial perturbation の影響を動機付け、モデル化する。
- 状態 perturbation の divergence(総変動 / KL)に連動した理論的に principled な頑健ポリシー正則化を開発する。
- 複数の DRL アルゴリズム(PPO、DDPG、DQN)に正則化を設計・適用し、強力な white-box 攻撃下での頑健性を向上させる。
- 特定の環境で、攻撃者がいなくても頑健なポリシーが非頑健なポリシーを上回ることを示す。
提案手法
- 攻撃者が観測された状態 s を、変分的・定常関数 nu(s) によって perturbation set B(s) 内で撹乱する SA-MDP を定義する。
- pi が固定されている場合と nu の場合、および pi に基づく最適な攻撃 nu* の場合のベルマン方程式を導出し、SA-MDP における収縮性と最適ポリシーの限界を示す。
- perturbation 下で pi(.|s) と pi(.|hat{s}) の間の最大 KL/TV 発散に基づく頑健ポリシー正則化を提案し、凸緩和や SGLD によって解かれるミニマックス風の目的関数へと導く。
- SA 正則化を PPO(state-adversarial PPO)、DDPG(SA-DDPG)、DQN(SA-DQN)にそれぞれ適用するための定式化を用意する(PPO KL 正則化、DDPG の平滑化ポリシー距離、DQN のヒンジ様の頑健項)。
- 訓練クリティックに依存しない2つの強力な攻撃(RS と MAD)を導入して、頑健性を評価し、攻撃フレームワークとの統合について議論する。
実験結果
リサーチクエスチョン
- RQ1SA-MDP 下での状態観測 perturbation が DRL の価値関数とポリシーをどのように変えるか?
- RQ2状態 perturbation の発散に基づく principled な正則化は、PPO、DDPG、DQN の頑健性を強い攻撃下で改善できるか?
- RQ3SA-MDP および最も強力なアドバーサリの下での最適ポリシーの理論的性質と限界は?
- RQ4ある環境では、頑健なポリシーが非攻撃的な状況でも性能を向上させるか?
- RQ5critic-independent 攻撃(RS と MAD)は、DRL アルゴリズムの頑健性評価にどれほど有効か?
主な発見
- SA-MDP は、最適な adversary が定常ポリシーを無効化できるフレームワークを提供し、DRL の頑健性の課題を浮き彫りにする。
- KL/TV ベースの頑健正則化は、PPO、DDPG、DQN に適用された場合、状態 perturbation に対するポリシーの感度を低減する。
- 実験的には、Atari 系統および MuJoCo 環境において、強力な white-box 攻撃に対して顕著な頑健性の向上が見られ、頑健な変種はしばしば攻撃下で非頑健なベースラインを上回る。
- SA-MDP に inspired された目的で正則化することで、攻撃者がいなくても一部の環境で性能が向上する。
- 著者らは、実践的に頑健正則化を最適化するためのスケーラブルな方法(凸緩和、SGLD)を提供し、再現のためのコードを公開している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。