QUICK REVIEW

[論文レビュー] Structured Adversarial Attack: Towards General Implementation and Better Interpretability

Kaidi Xu, Sijia Liu|arXiv (Cornell University)|Aug 5, 2018

Adversarial Robustness in Machine Learning被引用数 104

ひとこと要約

Structured Adversarial Attack (StrAttack) は、スライディングマスクと ADMM を用いて摂動のグループスパース性を課し、解釈可能で構造化された摂動を用いて歪みを競争力のある水準に維持する。

ABSTRACT

When generating adversarial examples to attack deep neural networks (DNNs), Lp norm of the added perturbation is usually used to measure the similarity between original image and adversarial example. However, such adversarial attacks perturbing the raw input spaces may fail to capture structural information hidden in the input. This work develops a more general attack model, i.e., the structured attack (StrAttack), which explores group sparsity in adversarial perturbations by sliding a mask through images aiming for extracting key spatial structures. An ADMM (alternating direction method of multipliers)-based framework is proposed that can split the original problem into a sequence of analytically solvable subproblems and can be generalized to implement other attacking methods. Strong group sparsity is achieved in adversarial perturbations even with the same level of Lp norm distortion as the state-of-the-art attacks. We demonstrate the effectiveness of StrAttack by extensive experimental results onMNIST, CIFAR-10, and ImageNet. We also show that StrAttack provides better interpretability (i.e., better correspondence with discriminative image regions)through adversarial saliency map (Papernot et al., 2016b) and class activation map(Zhou et al., 2016).

研究の動機と目的

画像内の空間構造を捉えるために、敵対的摂動におけるグループスパース性を探索する。
構造化攻撃のための一般的かつ効率的な最適化フレームワークを開発する。
StrAttack が従来の歪み測度を保持しつつ、 sparsely 構造化摂動を生み出すことを示す。
サリエンシマップとクラスアクティベーションマップを通じて摂動の解釈可能性を示す。
StrAttack の堅牢性をデータセット横断で評価し、防御手法に対して検証する。

提案手法

摂動をグループに分割するスライディングマスクを定義し、グループLasso様の正則化項 g(Δ) によってグループスパース性を課す。
losses、歪み項、グループスパース項を含む一般的な攻撃目的関数を定式化し、それを C&W および EAD の特殊ケースへ接続する。
得られた非凸問題を ADMM で効率的に解き、Δステップ、zステップ、 yステップ、wステップなどの閉形式更新を可能にする補助変数を導入する。
非凸損失 f(x0+z) を扱うため、Bregmanダイバージェンスを用いた線形化 ADMM 変種を使用し、閉形式の z 更新を得る。
複数の y 変数を用いた重複するグループ構造へ拡張し、ADMM の手順を適宜変更する。
sparse 摂動パターンを固定し、元の目的関数の下で値を微調整する refine メカニズムを提供する。

実験結果

リサーチクエスチョン

RQ1構造化（グループスパース）摂動は、ピクセルごとの歪みを増やすことなく DNN を誤導するのに十分な最小限の領域を同定できるか。
RQ2StrAttack は既存のノームボール攻撃（例：C&W、EAD）を一般化し、摂動の解釈可能性を改善するか。
RQ3ADMM をどのように活用して、重複するグループを含む構造化敵対的摂動を効率的に生成できるか。
RQ4ASM および CAM を介して摂動領域と識別的画像領域との対応をより明確に示せるか。
RQ5StrAttack は防御（防御蒸留、敵対的訓練）に対して有効で、MNIST、CIFAR-10、ImageNet など大規模データセットおよび複数のモデル間で転移可能性を示すか。

主な発見

StrAttack は最先端の攻撃と同程度の ℓp 歪みを維持しつつ、摂動に対して強いグループスパース性を示す。
StrAttack の摂動は、対象オブジェクトの意味的構造と一致することが多く、最小限の十分な領域をハイライトする。
重複するグループ構造は実現可能で、同じ歪み制約下でより疎な摂動を得られる場合がある。
ADMM ベースの解法は閉形式の更新と並列化可能な手順を提供し、従来法より効率性と汎用性を向上させる。
StrAttack は敵対的サリエンシマップとクラスアクティベーションマップを介して、非構造的攻撃と比較して解釈性の改善を示す。
StrAttack は防御（防御的蒸留および敵対的訓練）に対しても有効で、複数のネットワークアーキテクチャ間で高い転移性を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。