Skip to main content
QUICK REVIEW

[論文レビュー] Targeted Attacks on Deep Reinforcement Learning Agents through Adversarial Observations.

Léonard Hussenot, Matthieu Geist|arXiv (Cornell University)|May 29, 2019
Adversarial Robustness in Machine Learning参考文献 4被引用数 9
ひとこと要約

本稿では、深層強化学習エージェントの内部状態ではなく観測値を変更することで、標的となる敵対的攻撃であるCopyCATを紹介する。攻撃は事前に計算され、効率的かつ効果的であり、攻撃者がエージェントの環境表現を直接変更できない「読み取り専用」設定においても、Atari 2600ゲームでエージェントを外部ポリシーに従わせるのに成功している。

ABSTRACT

We propose a new perspective on adversarial attacks against deep reinforcement learning agents. Our main contribution is CopyCAT, a targeted attack able to consistently lure an agent into following an outsider's policy. It is pre-computed, therefore fast inferred, and could thus be usable in a real-time scenario. We show its effectiveness on Atari 2600 games in the novel read-only setting. In this setting, the adversary cannot directly modify the agent's state -- its representation of the environment -- but can only attack the agent's observation -- its perception of the environment. Directly modifying the agent's state would require a write-access to the agent's inner workings and we argue that this assumption is too strong in realistic settings.

研究の動機と目的

  • エージェントの内部状態への書き込みアクセスを必要とする従来の敵対的攻撃には現実的でないという制限に対処すること。
  • エージェントの内部表現を変更せずに、その観測値(環境に対する認識)のみに作用する攻撃を開発すること。
  • 厳密な制約下にあっても、特定の外部ポリシーに従わせる標的攻撃を可能にすること。
  • 動的環境においてリアルタイムで展開可能な、効率的で事前に計算された攻撃を設計すること。

提案手法

  • 攻撃は、エージェントのポリシーを標的行動へ誘導するように最適化された摂動を用いて、敵対的観測を構築する。
  • エージェントの各状態に対して最適な摂動をエンコードした事前に計算された攻撃マップを活用し、展開時の高速な推論を実現する。
  • 攻撃者はエージェントの内部状態やポリシー・パラメータを変更できない「読み取り専用」設定で動作する。
  • 摂動がエージェントのポリシー・ダイナミクスに与える影響をシミュレートするために、微分可能環境モデルを用いる。
  • 攻撃は、エージェントの行動と標的ポリシーとの乖離を最小化するように定式化された標的最適化問題として定式化される。
  • 観測ストリームのみが操作可能であるという現実的な状況で評価され、実世界の知覚干渉を模倣している。

実験結果

リサーチクエスチョン

  • RQ1攻撃者がエージェントの内部状態ではなく観測値のみを変更できる制限下でも、敵対的攻撃は効果的であるか?
  • RQ2事前に計算され、推論が高速な攻撃を設計でき、読み取り専用設定下で一貫してエージェントを標的ポリシーへ誘導できるか?
  • RQ3このような攻撃は、Atari 2600ゲームのような複雑で高次元の環境でも効果的か?
  • RQ4状態ではなく観測値を摂動する場合、攻撃の隠蔽性と成功確率のトレードオフはどのように変化するか?

主な発見

  • CopyCATは、状態の変更が禁止された読み取り専用設定下でも、Atari 2600ゲームにおいて深層強化学習エージェントを標的ポリシーへ誘導することに成功した。
  • 標的ポリシーの模倣において高い成功確率を達成し、複数のゲームにわたり一貫したパフォーマンスを示した。
  • 事前に計算された性質のおかげで、推論が高速であり、リアルタイム応用に適している。
  • 攻撃者がエージェントの内部状態やポリシー・パラメータに直接アクセス・変更できない状況でも、この手法は依然として効果的である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。