QUICK REVIEW

[論文レビュー] Delving into adversarial attacks on deep policies

Jernej Kos, Dawn Song|arXiv (Cornell University)|May 18, 2017

Adversarial Robustness in Machine Learning参考文献 4被引用数 121

ひとこと要約

この論文は深層強化学習ポリシーに対する敵対的攻撃を研究し、敵対的摂動をランダムノイズと比較し、攻撃タイミングを最適化するために値関数ガイドを用い、頑健性のための再訓練を評価する。

ABSTRACT

Adversarial examples have been shown to exist for a variety of deep learning architectures. Deep reinforcement learning has shown promising results on training agent policies directly on raw inputs such as image pixels. In this paper we present a novel study into adversarial attacks on deep reinforcement learning polices. We compare the effectiveness of the attacks using adversarial examples vs. random noise. We present a novel method for reducing the number of times adversarial examples need to be injected for a successful attack, based on the value function. We further explore how re-training on random noise and FGSM perturbations affects the resilience against adversarial examples.

研究の動機と目的

深層RLポリシーに対する敵対例とランダムノイズの有効性を評価する。
摂動を注入する頻度を下げても攻撃の有効性を保てるかを評価する。
敵対的摂動のタイミングを決定する際に値関数を用いることを調べる。
ノイズや敵対的摂動を用いた再訓練が頑健性と他の摂動サイズへの転送に与える影響を検討する。
DRLポリシーが敵対的入力にどのように反応するかの初歩的な洞察を提供する。

提案手法

Atari Pong 上の TensorFlow A3C 実装を使用し、入力は42×42のグレースケール。
ポリシーロジットと最大アクションの間のクロスエントロピー損失を用いて FGSM 摂動を生成。
FGSM 攻撃をβベースの大きさを用いた一様ランダムノイズと比較。
3つの摂動タイミング戦略をテスト：毎Nフレームごと、Nフレームごとに再計算、値関数ガイドによる注入。
ノイズ環境でエージェントを再訓練し、異なる摂動の大きさやタイプへの転送を評価。
ポリシー空間の摂動を可視化し、意思決定境界の断片化を分析。

実験結果

リサーチクエスチョン

RQ1敵対的な例はDRLポリシーに対する攻撃でランダムノイズとどう比較されるか。
RQ2摂動を注入する頻度を下げても攻撃の有効性を失わずに達成できるか。
RQ3値関数を用いて摂動のタイミングを導くことは攻撃成功を改善するか。
RQ4ノイズや FGSM 摂動で再訓練することで FGSM および他の摂動に対する頑健性が高まるか。
RQ5摂動がイメージ空間でのポリシーの意思決定境界とアクションのマッピングにどのような影響を与えるか。

主な発見

FGSM の敵対摂動は、低摂動マグニチュードでDRLポリシーの性能を低下させる点でランダムノイズより桁違いに効果的。
値関数を用いたガイド付き注入は、摂動をフレームの一部だけで注入しても有効な攻撃を可能にする。
Nフレームごとに摂動を再計算し、中間フレームで再利用することで、毎フレーム注入と同等の効果を得られる。
ノイズやFGSM摂動による再訓練はFGSM攻撃への頑健性を高め、異なる摂動マグニチュードへの転送も一部ある。
再訓練されたポリシーは他の攻撃手法には脆弱なままであり、再訓練後もポリシーのアクション空間が断片化し続ける可能性がある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。