QUICK REVIEW

[論文レビュー] NATTACK: Learning the Distributions of Adversarial Examples for an Improved Black-Box Attack on Deep Neural Networks

Yandong Li, Lijun Li|arXiv (Cornell University)|May 1, 2019

Adversarial Robustness in Machine Learning参考文献 51被引用数 45

ひとこと要約

NATTACK は入力の周囲の摂動の確率分布を学習するブラックボックス型敵対的攻撃を提案し、内部モデルの詳細にアクセスせずに vanilla および defended DNN に対して効果的な攻撃を可能にする。

ABSTRACT

Powerful adversarial attack methods are vital for understanding how to construct robust deep neural networks (DNNs) and for thoroughly testing defense techniques. In this paper, we propose a black-box adversarial attack algorithm that can defeat both vanilla DNNs and those generated by various defense techniques developed recently. Instead of searching for an "optimal" adversarial example for a benign input to a targeted DNN, our algorithm finds a probability density distribution over a small region centered around the input, such that a sample drawn from this distribution is likely an adversarial example, without the need of accessing the DNN's internal layers or weights. Our approach is universal as it can successfully attack different neural networks by a single algorithm. It is also strong; according to the testing against 2 vanilla DNNs and 13 defended ones, it outperforms state-of-the-art black-box or white-box attack methods for most test cases. Additionally, our results reveal that adversarial training remains one of the best defense techniques, and the adversarial examples are not as transferable across defended DNNs as them across vanilla DNNs.

研究の動機と目的

強力で普遍的なブラックボックス攻撃を用いてDNN防御の堅牢な評価を促進する。
内部情報にアクセスする必要のない、分布ベースで勾配不要の攻撃フレームワークを提案する。
入力の周囲に摂動分布を学習することが、多様なモデルにおいて効率的に adversarial examples を生み出せることを示す。

提案手法

入力 x の周りの局所領域 S に学習された分布上の損失の期待値を最小化する形式で敵対的攻撃を定式化する。
pi_S(x'|theta) を z ~ N(mu, sigma^2) かつ柔軟な変換 g を用いて x' = proj_S(g(z)) によって定義し、低次元パラメータ化 (theta = (mu, sigma^2)) を可能にする。
制約付き NES 相似の目的関数 J(theta) = E_{z~N(mu,sigma^2)} f(proj_S(g(z))) を用い、NES風の更新で mu を最適化する。射影を f の評価に組み込む。
シードを入力空間へ写すように g をパラメータ化し、tanh ベースのスケーリングとクリッピングを適用して x' が有効な入力範囲内になるようにし、次に S へ射影する。
誤分類を促進するために C&W ロス f(x') = max(0, log F(x')_y - max_{c != y} log F(x')_c) を用いる。
良好な mu_0 を benign input x から予測する回帰ネットワークを用いて初期化を改善し、収束を速める。

実験結果

リサーチクエスチョン

RQ1ブラックボックス攻撃は単一のアルゴリズムで vanilla と defended DNN の両方に対して効果的に勝てるか？
RQ2入力の周りの摂動の分布を学習することは、勾配ベースのブラックボックス手法よりも強力で頑健な敵対的例を生み出すか？
RQ3提案手法の NATTACK は、データセットと防御技術を横断して、防御されたネットワークに対する既存のブラックボックスおよびホワイトボックス攻撃とどのように比較されるか？
RQ4分布ベースの初期化と変数変換が攻撃力と効率に与える影響は？
RQ5NATTACK で攻撃した場合、防御された DNN 同士の間で敵対的例の転移性はどの程度か？

主な発見

防御技術	データセット	分類	閾値	攻撃成功率 %	精度 %	距離	BPDA	ZOO	QL	D-based	N Attack
Adv-train	CIFAR10	87.3	0.031 ( L_infty )	46.9	16.9	40.3	–	40.3?	-	–	47.9
adv-bnn	CIFAR10	79.7	0.035 ( L_infty )	48.3	–	–	–	–	–	–	75.3
Therm-adv	CIFAR10	88.5	0.031 ( L_infty )	76.1	0.0	42.3	–	42.3?	–	–	91.2
Cas-adv	CIFAR10	75.6	0.015 ( L_infty )	85.0*	96.1	68.4	–	68.4	–	–	97.7
ADV-GAN	CIFAR10	90.9	0.031 ( L_infty )	48.9	76.4	53.7	–	53.7	–	–	98.3
LID	CIFAR10	66.9	0.031 ( L_infty )	95.0	92.9	95.7	–	95.7	–	–	100.0
Therm	CIFAR10	92.8	0.031 ( L_infty )	100.0	0.0	96.5	–	96.5	–	–	100.0
SAP	CIFAR10	93.3	0.031 ( L_infty )	100.0	5.9	96.2	–	96.2	–	–	100.0
RSE	CIFAR10	91.4	0.031 ( L_infty )	–	–	–	–	–	–	–	100.0
VANILLA WRESNET-32	CIFAR10	95.0	0.031 ( L_infty )	100.0	99.3	96.8	–	96.8	–	–	100.0
Guided denoiser	ImageNet	79.1	0.031 ( L_infty )	100.0	–	–	–	–	–	–	95.5
Randomization	ImageNet	77.8	0.031 ( L_infty )	100.0	6.7	45.9	–	45.9	–	–	96.5
Input-Trans	ImageNet	77.6	0.05 ( L2 )	100.0	38.3	66.5	66.0	66.0	66.0	100.0
Pixel deflection	ImageNet	69.1	0.015 ( L_infty )	97.0	–	8.5	–	8.5	–	–	100.0
VANILLA INCEPTION V3	ImageNet	78.0	0.031 ( L_infty )	100.0	62.1	100.0	–	100.0	–	–	100.0

NATTACK は 13 の defended DNN と vanilla モデル全体で高い攻撃成功率を達成し、いくつかの最先端のブラックボックス手法を上回り、多くのケースでホワイトボックス手法と一致または超える。
QL ブラックボックス攻撃より大幅に改善され、アブレーション研究は射影の吸収、変換 g の使用、z-score 正規化の適用の利点を示す。
さまざまな防御下でも攻撃は有効で、いくつかの防御では約90%、他の多数では100%の成功率を示し、普遍性を示す。
adversarial training は依然として強力な防御だが、敵対的例は defended DNN 間で vanilla ネットワーク間より転移性が低く、ホワイトボックス→ブラックボックス転送戦略の効果を低減する。
BPDA と比較して、NATTACK は単一の普遍的なアルゴリズムで同等またはそれ以上の性能を提供するが、BPDA は高解像度入力で一部設定でより速い場合がある。
本手法は防御の堅牢なベンチマークの実践的な枠組みを提供し、敵対的例の効率的生成を可能にすることで adversarial training のスケーリングにも寄与する可能性がある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。