Skip to main content
QUICK REVIEW

[論文レビュー] On the Robustness of the CVPR 2018 White-Box Adversarial Example Defenses

Anish Athalye, Nicholas Carlini|arXiv (Cornell University)|Apr 10, 2018
Adversarial Robustness in Machine Learning参考文献 7被引用数 119
ひとこと要約

この論文は2つのCVPR 2018防御策(Pixel DeflectionとHigh-Level Representation Guided Denoiser)をホワイトボックス攻撃下で失敗することを示し、4/255の摂動でImageNet精度を0%に低下させ、標的成功率を97%達成する。

ABSTRACT

Neural networks are known to be vulnerable to adversarial examples. In this note, we evaluate the two white-box defenses that appeared at CVPR 2018 and find they are ineffective: when applying existing techniques, we can reduce the accuracy of the defended models to 0%.

研究の動機と目的

  • 2つのCVPR 2018白箱防御の耐性を強力な敵対的攻撃に対して評価する。
  • Pixel DeflectionとHGRが白箱脅威モデル下で有効かどうかを判断する。
  • 標準的な敵対的攻撃手法を用いて攻撃成功率と耐性を定量化する。

提案手法

  • 微分不可能なピクセル撹乱を扱うためにBPDAを適用し、ホワイトボックス攻撃に対する堅牢性を評価する。
  • l_infinity = 4/255に制限した非標的敵対的例を作成するためにPGDを用いる。
  • 攻撃下での精度と標的攻撃成功率を測定するためにImageNet上の防御済みモデルを評価する。
  • 攻撃者が防御を知っている白箱脅威モデルにおける防御の分析。

実験結果

リサーチクエスチョン

  • RQ1Pixel DeflectionとHGRは白箱敵対的攻撃に対して堅牢か。
  • RQ2標準的な白箱攻撃はImageNet上の防御モデルの精度をほぼゼロにまで低下させることができるか。
  • RQ3小さな摂動限度の下でこれらの防御に対する標的攻撃の成功率はどの程度か。

主な発見

  • Pixel Deflection防御の defended model に対する精度は白箱BPDA攻撃下で0%に低下;標的成功率は約97%。
  • HGR防御は白箱PGDでエンドツーエンドの実施において精度0%および100%の標的攻撃成功を達成。
  • 両防御は白箱脅威モデルにおける敵対的例に対して堅牢ではない。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。