QUICK REVIEW

[論文レビュー] MagNet and "Efficient Defenses Against Adversarial Attacks" are Not Robust to Adversarial Examples

Nicholas Carlini, David Wagner|arXiv (Cornell University)|Nov 22, 2017

Adversarial Robustness in Machine Learning参考文献 11被引用数 140

ひとこと要約

本論文は MagNet、Efficient Defenses、および APE-GAN が敵対的サンプルに対して堅牢でないことを示している。転移可能な攻撃は、わずかな歪みの増加でこれらの防御を打ち破り得る。

ABSTRACT

MagNet and "Efficient Defenses..." were recently proposed as a defense to adversarial examples. We find that we can construct adversarial examples that defeat these defenses with only a slight increase in distortion.

研究の動機と目的

MNIST および CIFAR-10 に対する敵対的サンプルに対して MagNet、Efficient Defenses、および APE-GAN の堅牢性を評価する。

提案手法

Defender のコピーに対して転移可能な敵対的例を作成するために Carlini and Wagner’s L2 attack を用いている。
防御を模擬し転移攻撃を可能にするため、検出器/リフォーマとして複数の局所オートエンコーダを訓練する。
転移性を最大化するために、分類器損失と検出器/リフォーマ損失を用いて敵対的目的関数を計算する。
MNIST と CIFAR-10 に対する標的攻撃の成功率と L2 の歪みを評価する。
再構成前後の距離を比較することで、なぜ APE-GAN が失敗するのかを分析する。

実験結果

リサーチクエスチョン

RQ1MagNet、Efficient Defenses、および APE-GAN は MNIST および CIFAR-10 上で転移可能な敵対的例に耐性を示すか？
RQ2攻撃者は自分自身の防御のコピーを訓練して転移性を悪用し、保護モデルを敗北させることができるか？
RQ3これらの防御に対して成功した標的型敵対的例を作るために必要な歪みはどれくらいか？
RQ4なぜ APE-GAN の再構成は敵対的摂動を除去できないのか？

主な発見

Dataset	Model	Success	Distortion ( L2 )
MNIST	Unsecured	100%	1.64
MNIST	MagNet	99%	2.25
CIFAR	Unsecured	100%	0.30
CIFAR	MagNet	100%	0.45

MagNet は約 99%–100% のグレーボックス攻撃成功率を示し、L2 の歪みは約 2.25 (MNIST) および 0.45 (CIFAR) である。
Efficient Defenses against Adversarial Attacks は、控えめな歪みで 100% の攻撃成功を達成する（MNIST 約 2.04–2.66、CIFAR 約 0.56–0.67）。
APE-GAN も MNIST および CIFAR 全体で 100% の成功と約 2.04–0.72 の歪みで、頑健な防御を提供できない。
防御のコピーから実際の防御モデルへ敵対的例を転送することは高い攻撃成功率を可能にし、グレーボックスの脆弱さを浮き彫りにする。
3 つの防御はいずれも、未保護モデルと比較して平均で歪みが約 30% 増えるなど、控えめな頑健性の改善しか提供しない。
回復された敵対的例は、攻撃者の摺動よりも元の例と乖離している場合があり、再構成が敵対的信号を確実に無効化していないことを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。