Skip to main content
QUICK REVIEW

[論文レビュー] Defense against Universal Adversarial Perturbations

Naveed Akhtar, Jian Liu|arXiv (Cornell University)|Nov 16, 2017
Adversarial Robustness in Machine Learning参考文献 33被引用数 25
ひとこと要約

本稿では、摂動補正ネットワーク(PRN)を入力前処理モジュールとして用い、摂動を受損した画像を回復する新しい防御フレームワークを提案する。さらに、PRN出力の離散コサイン変換(DCT)に基づく別個の検出器を用いる。この手法は、未観測の摂動に対して最大97.5%の防御成功率を達成し、ターゲット分類器を再訓練または変更することなく、さまざまなネットワークアーキテクチャに一般化して機能する。

ABSTRACT

Recent advances in Deep Learning show the existence of image-agnostic quasi-imperceptible perturbations that when applied to `any' image can fool a state-of-the-art network classifier to change its prediction about the image label. These `Universal Adversarial Perturbations' pose a serious threat to the success of Deep Learning in practice. We present the first dedicated framework to effectively defend the networks against such perturbations. Our approach learns a Perturbation Rectifying Network (PRN) as `pre-input' layers to a targeted model, such that the targeted model needs no modification. The PRN is learned from real and synthetic image-agnostic perturbations, where an efficient method to compute the latter is also proposed. A perturbation detector is separately trained on the Discrete Cosine Transform of the input-output difference of the PRN. A query image is first passed through the PRN and verified by the detector. If a perturbation is detected, the output of the PRN is used for label prediction instead of the actual image. A rigorous evaluation shows that our framework can defend the network classifiers against unseen adversarial perturbations in the real-world scenarios with up to 97.5% success rate. The PRN also generalizes well in the sense that training for one targeted network defends another network with a comparable success rate.

研究の動機と目的

  • 最小限で目立たないノイズによって、あらゆる画像で深層ニューラルネットワークをだますことのできる普遍的 adversarial 摂動が引き起こす深刻な脅威に対処する。
  • ターゲット分類器を再訓練または変更することなく、すでに展開済みのモデルに適用可能な防御機構を開発する。
  • 訓練時に摂動タイプが未知であっても、実世界のシナリオにおいても、普遍的摂動の検出と補正を強力に実現する。
  • 普遍的摂動の固有のアーキテクチャ間一般化特性を活用することで、異なるネットワークアーキテクチャにわたる一般化を確保する。
  • プラグイン可能なコンponents(PRN と検出器)を備えた実用的で安全な防御を提供し、対策の逆転を防ぐために機密性を保つ。

提案手法

  • 実際の摂動と合成的に生成された摂動を用いて、普遍的 adversarial 摂動によって損傷を受ける画像を回復するための摂動補正ネットワーク(PRN)を、前処理モジュールとして訓練する。
  • 効率的な合成的画像無関係摂動の生成法を提案し、Moosavi-Dezfooli [26] の理論枠組みを拡張することで、PRNの訓練を効果的に行う。
  • 入力とPRNで補正された出力との差の離散コサイン変換(DCT)を用いて、adversarial 摂動の存在を検出する別個の検出器を訓練する。
  • 検出器が摂動の存在を確認した場合にのみ、PRN出力を分類に使用し、それ以外は元の画像を使用する。
  • 補正差のDCT特徴を分類するためにサポートベクターマシン(SVM)を用い、摂動入力を高精度に検出可能にする。
  • PRN と検出器を秘密に保てるようにモジュラーかつ機密性の高いフレームワークを設計し、敵対的適応を防ぐ。

実験結果

リサーチクエスチョン

  • RQ1アーキテクチャの変更なしに、事前学習済みで変更の加えられていない深層ニューラルネットワークが、普遍的 adversarial 摂動に対して効果的に防御可能か。
  • RQ2学習済みの摂動補正ネットワーク(PRN)は、未観測の普遍的 adversarial 摂動によって損傷を受ける画像をどれほど効果的に回復できるか。
  • RQ3DCTベースの検出器は、PRN出力差に基づいて、クリーン画像と摂動付き画像を信頼性高く区別できるか。
  • RQ4特に、PRNの学習に使ったモデルと異なるターゲットモデルの場合、防御がどの程度異なるネットワークアーキテクチャに一般化するか。
  • RQ5未知の摂動タイプと未知のテスト画像を含む実世界の条件下で、防御の性能はどの程度か。

主な発見

  • 提案されたフレームワークは、未観測の普遍的摂動で汚染された未観測画像に対して最大97.5%の防御成功率を達成し、高い耐性を示した。
  • PRNは、$oldsymbol{ ext{ℓ}_2}$-型摂動下で、VGG-Fでは93.2%、CaffeNetでは90.3%、GoogLeNetでは84.7%の回復精度を示した。
  • 検出器は、CaffeNetとVGG-Fにおいて、$oldsymbol{ ext{ℓ}_2}$-型摂動で98.6%、$oldsymbol{ ext{ℓ}_ ext{∞}}$-型摂動で98.1%の検出率を達成し、高い信頼性を示した。
  • アーキテクチャ間での一般化が良好に機能する:1つのネットワークで学習した場合、他のネットワークに対しても同等の性能で防御可能で、特に類似アーキテクチャのモデルで顕著だった。
  • GoogLeNetでは、$oldsymbol{ ext{ℓ}_ ext{∞}}$-型摂動に対して防御率が92.5%に低下したが、これは摂動の$oldsymbol{ ext{ℓ}_2}$-ノルムが低いため、アーキテクチャが意思決定境界への感受性に影響していることを示唆している。
  • $oldsymbol{ ext{ℓ}_2}$ および $oldsymbol{ ext{ℓ}_ ext{∞}}$-型摂動の両方において、同じテスト/学習摂動タイプ下で、ほとんどのモデルで90%を超える防御率を維持した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。