Skip to main content
QUICK REVIEW

[論文レビュー] Adversarial Policies: Attacking Deep Reinforcement Learning

Adam Gleave, Michael D. Dennis|arXiv (Cornell University)|May 25, 2019
Adversarial Robustness in Machine Learning参考文献 33被引用数 92
ひとこと要約

本論文は、共有環境で作用する敵対的ポリシーが、敵対的で分布外の観測を誘発することにより、固定された被害者RLポリシーを安定して打ち負かすことができることを示す。特に高次元設定で顕著である。なぜこれが機能するのかを分析し、防御策を検討する。

ABSTRACT

Deep reinforcement learning (RL) policies are known to be vulnerable to adversarial perturbations to their observations, similar to adversarial examples for classifiers. However, an attacker is not usually able to directly modify another agent's observations. This might lead one to wonder: is it possible to attack an RL agent simply by choosing an adversarial policy acting in a multi-agent environment so as to create natural observations that are adversarial? We demonstrate the existence of adversarial policies in zero-sum games between simulated humanoid robots with proprioceptive observations, against state-of-the-art victims trained via self-play to be robust to opponents. The adversarial policies reliably win against the victims but generate seemingly random and uncoordinated behavior. We find that these policies are more successful in high-dimensional environments, and induce substantially different activations in the victim policy network than when the victim plays against a normal opponent. Videos are available at https://adversarialpolicies.github.io/.

研究の動機と目的

  • 対戦相手を支配する敵対者がゼロ和マルコフゲーム内で動作する、物理的に現実的な脅威モデルを導入する。
  • 自己対戦で訓練された最先端の被害者を安定して打ち負かす敵対的ポリシーの存在を示す。
  • 敵対的ポリシーが観測と被害者の活性化を操作して故障を引き起こす機序を分析する。
  • 観測の次元性の役割を調査し、防御の可能性を理解するためのアブレーションを実施する。

提案手法

  • 固定された被害者ポリシーを持つ二人プレーヤーのマルコフゲームとして被害者と攻撃者をモデル化する。攻撃者は、ダイナミクスに埋め込まれた被害者のポリシーを前提として、割引報酬を最大化するRL問題を解く。
  • 固定ブラックボックスの被害者に対して Proximal Policy Optimization (PPO) を用いて敵対的ポリシーを訓練する。
  • 固有受容観測を持つゼロ和のシミュレートロボティクス環境(Kick and Defend, You Shall Not Pass, Sumo Humans, Sumo Ants)で敵対者を評価する。
  • 敵対者をベースライン(Rand, Zero, Zoo ポリシー)と比較し、中央値の被害者に対する時間経過に伴う勝利率を測定する。
  • 敵対者によって引き起こされる分布の変化を理解するため、Gaussian Mixture Models と t-SNE を用いて被害者の活性化を分析する。)

実験結果

リサーチクエスチョン

  • RQ1攻撃者が被害者の観測を直接変更できない多-agent、物理的に現実的なRL設定において、敵対的ポリシーは存在するのか。
  • RQ2自己対戦で訓練された被害者に対して、事前学習済みの Zoo ベースラインを上回る敵対的ポリシーは存在するのか。
  • RQ3観測操作、活性化シフトといったどのメカニズムが敵対的ポリシーを有効にし、観測の次元性が脆弱性にどう影響するのか。
  • RQ4敵対者に対するファインチューニングなどの防御は攻撃を緩和できるのか、そして防御された被害者を新たな敵対者が依然として打ち負かすことができるのか。

主な発見

  • 敵対的ポリシーは、いくつかの環境で被害者ポリシーを安定して打ち負かし、しばしばZooベースラインより高い勝率を示す。
  • 敵対者は一般的に強力な対戦相手になるのではなく、自然な敵対的観測を作り出すことによって勝利し、被害者ネットワークに分布外の活性化を誘発する。
  • 観測の次元性が高いほど敵対的ポリシーに対する脆弱性が高まる(例:Sumo Humans は Sumо Ants より脆弱)。
  • 敵対者の位置をマスクすると通常の対戦相手を劣化させる一方で、敵対者に対しては有効となり、非推移的なポリシー相互作用を示す。
  • ファインチューニングは特定の敵対者に対する部分的防御を提供するが、防御された被害者に対して訓練された新しい敵対者は依然として成功できる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。