[論文レビュー] Attacks Meet Interpretability: Attribute-steered Detection of Adversarial Samples
本論文は AmI を提案する。これは顔認識における敵対サンプル検出器で、属性とニューロンの双方向対応を利用して属性指向モデルを作成し、7種の攻撃タイプにわたり検出精度約94%、偽陽性約9.9%を達成し、特徴圧縮を上回る。
Adversarial sample attacks perturb benign inputs to induce DNN misbehaviors. Recent research has demonstrated the widespread presence and the devastating consequences of such attacks. Existing defense techniques either assume prior knowledge of specific attacks or may not work well on complex models due to their underlying assumptions. We argue that adversarial sample attacks are deeply entangled with interpretability of DNN models: while classification results on benign inputs can be reasoned based on the human perceptible features/attributes, results on adversarial samples can hardly be explained. Therefore, we propose a novel adversarial sample detection technique for face recognition models, based on interpretability. It features a novel bi-directional correspondence inference between attributes and internal neurons to identify neurons critical for individual attributes. The activation values of critical neurons are enhanced to amplify the reasoning part of the computation and the values of other neurons are weakened to suppress the uninterpretable part. The classification results after such transformation are compared with those of the original model to detect adversaries. Results show that our technique can achieve 94% detection accuracy for 7 different kinds of attacks with 9.91% false positives on benign inputs. In contrast, a state-of-the-art feature squeezing technique can only achieve 55% accuracy with 23.3% false positives.
研究の動機と目的
- 事前の攻撃知識ではなく、解釈可能性を通じて敵対サンプルの検出を動機づける。
- 人間の顔特徴と内部ニューロンと強く相関する属性証拠を抽出する。
- 属性関連ニューロンを強化し、他を弱めることで一貫性の欠如を露出させる属性指向モデルを構築する。
- 複数の攻撃タイプに対して、最先端の feature squeezing と検出性能を比較する。
提案手法
- 属性証拠を、人間が知覚できる顔特徴とニューロン活性の間の双方向推論によって強く相関するニューロンとして定義する。
- 属性置換と保持を用いて層間の証拠セットを特定する。
- ニューロン重み付け変換を用いて、証拠ニューロンを強化し、非証拠ニューロンを弱める(層ごとに)属性指向モデルを構築する。
- 活性化に属性保持変換を適用して、解釈不能な特徴をさらに抑制する。
- テスト入力で元のモデルと属性指向モデルを並べて実行する。矛盾が敵対入力を示す。
実験結果
リサーチクエスチョン
- RQ1顔特徴と内部ニューロンとの双方向対応は、顔認識DNN全体にわたって属性証拠を頑健に識別できるか?
- RQ2属性証拠を強調するようにモデルを変換することで、偽陽性を過度に増加させることなく敵対サンプルの検出性能が向上するか?
- RQ3AmI は、複数の攻撃タイプにおいて、feature squeezing のような最先端の防御と比較してどのように機能するか?
主な発見
- AmI は 7 種類の攻撃タイプで約 94% の検出精度を達成し、良性入力で 9.91% の偽陽性を示す。
- 同じ設定で feature squeezing は 55% の精度、23.32% の偽陽性を達成しており、本脈絡では AmI の優れた性能を示す。
- 特定の属性を除外しても属性証拠抽出は頑健で、検出精度の劣化は5%未満。
- 証拠抽出の双方向推論は、一方向の手法(置換のみ、保持のみ)より偽陽性の低減に優れる。
- 本手法は VGG-Face 上で3つのデータセット(VF, LFW, CelebA)でデモンストレーションされ、GitHub で公開されている。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。