Skip to main content
QUICK REVIEW

[論文レビュー] NATTACK: Learning the Distributions of Adversarial Examples for an Improved Black-Box Attack on Deep Neural Networks

Yandong Li, Lijun Li|arXiv (Cornell University)|May 1, 2019
Adversarial Robustness in Machine Learning被引用数 109
ひとこと要約

NATTACK は入力の周辺の小さな領域の確率分布を学習し、ブラックボックス設定で敵対的例を作成する。多くの防御を打ち破り、多様な DNN で white-box 手法に匹敵する。

ABSTRACT

Powerful adversarial attack methods are vital for understanding how to construct robust deep neural networks (DNNs) and for thoroughly testing defense techniques. In this paper, we propose a black-box adversarial attack algorithm that can defeat both vanilla DNNs and those generated by various defense techniques developed recently. Instead of searching for an "optimal" adversarial example for a benign input to a targeted DNN, our algorithm finds a probability density distribution over a small region centered around the input, such that a sample drawn from this distribution is likely an adversarial example, without the need of accessing the DNN's internal layers or weights. Our approach is universal as it can successfully attack different neural networks by a single algorithm. It is also strong; according to the testing against 2 vanilla DNNs and 13 defended ones, it outperforms state-of-the-art black-box or white-box attack methods for most test cases. Additionally, our results reveal that adversarial training remains one of the best defense techniques, and the adversarial examples are not as transferable across defended DNNs as them across vanilla DNNs.

研究の動機と目的

  • 強力で普遍的なブラックボックス攻撃を開発することにより、DNNの頑健な評価を動機づける。
  • 攻撃目的を滑らかにする分布ベースの最適化フレームワークを提案し、滑らかでないネットワークの勾配推定を回避する。
  • ベースのDNNと defended DNN 両方に対する有効性を実証し、敵対的例の転移性を分析する。
  • 敵対的トレーニングが依然として強力な防御であること、 defended モデル間の転移性は限定的であることを示す。

提案手法

  • 入力 x の周囲の楕円領域 S に対する確率分布を学習する敵対的攻撃として定式化する。
  • 潜在サンプルを入力空間に写像し S へ射影して x′ を生成する変換 g を定義する。
  • 分布パラメータ θ に対して、平均 μ(および帯域 σ)のNES風の更新によって、平滑化された目的関数 J(θ)=E[f(projS(g(z)))] を最適化する。
  • 回帰ネットワークを用いて μ0 を初期化し、収束を加速する。
  • 誤分類を促す C&W 風の損失 f(x′)=max(0, log F(x′)y − max_{c≠y} log F(x′)c) を用いる。
  • projS(g(z)) を f に吸収して目的関数に射影を組み込み、勾配推定ベースの手法より安定性を向上させる。
  • 白箱攻撃や他のブラックボックス攻撃(ZOO、QL、BPDA を含む)と比較し、2 つの vanilla DNN と 13 の defended DNN で評価する。

実験結果

リサーチクエスチョン

  • RQ1単一の普遍的なグラデイントフリー攻撃が、内部モデル重みへアクセスせずに、vanilla DNN と defended DNN の双方を撃破できるか?
  • RQ2ローカル入力領域の分布を学習することは、直接的なグラデイントフリー最適化よりも、より頑健な敵対的生成を可能にするか?
  • RQ3NATTACK は、多様な防御とデータセットに対して、最先端のブラックボックスおよびホワイトボックス攻撃と比べてどう性能を示すか?
  • RQ4ブラックボックス手法で攻撃した場合、 defended モデル間の敵対的例の転移性はどの程度か?

主な発見

Defense TechniqueDatasetClassificationThresholdAttack Success Rate %Accuracy %DistanceBPDAZOOQLD-basedN Attack
Adv-trainCIFAR1087.30.031 (L_infinity)46.916.940.347.9
adv-bnnCIFAR1079.70.035 (L_infinity)48.375.3
Therm-advCIFAR1088.50.031 (L_infinity)76.10.042.391.2
Cas-advCIFAR1075.60.015 (L_infinity)85.0*96.168.497.7
ADV-GANCIFAR1090.90.031 (L_infinity)48.976.453.798.3
LIDCIFAR1066.90.031 (L_infinity)95.092.995.7100.0
ThermCIFAR1092.80.031 (L_infinity)100.00.096.5100.0
SAPCIFAR1093.30.031 (L_infinity)100.05.996.2100.0
RSECIFAR1091.40.031 (L_infinity)100.0
WRESNET-32CIFAR1095.00.031 (L_infinity)100.099.396.8100.0
Guided denoiserImageNet79.10.031 (L_infinity)100.095.5
RandomizationImageNet77.80.031 (L_infinity)100.06.796.5
Input-TransImageNet77.60.05 (L2)100.038.366.566.0100.0
Pixel deflectionImageNet69.10.015 (L_infinity)97.08.5100.0
Vanilla Inception V3ImageNet78.00.031 (L_infinity)100.062.1100.0100.0100.0
  • NATTACK は 2 つの vanilla DNN および 13 の defended DNN に対して高い攻撃力を達成し、いくつかの最先端ブラックボックス手法を上回り、多くのケースで white-box アプローチに匹敵する。
  • 13 の防御において、NATTACK は報告されたプロトコルの下で六つの防御に対して100%の攻撃成功率を、他の五つには90%以上を達成。
  • QL と比較して、平滑化された目的関数、変換 g(·)、z-score 安定化の効果をアブレーション研究で示すと、NATTACK の性能が改善。
  • ImageNet での攻撃時、回帰初期化を用いると実行時間が回帰なしの約71秒から約48秒に削減される。CIFAR-10 では BPDA の攻撃は約30秒程度で、NATTACK は競争力のある時間を示す。
  • 敵対的トレーニングは依然として最も強力な防御の1つであり、 defended DNN 間の敵対的例の転移性は vanilla DNN 間より弱く、代替モデル攻撃の有用性を低減する。
  • NATTACK は学習済み分布からサンプリングして大量の敵対的例を生成するスケーラブルなフレームワークを提供し、堅牢な防御トレーニングを支援する可能性がある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。