[論文レビュー] Attacks Meet Interpretability: Attribute-steered Detection of Adversarial Samples
本論文は AmI を提案する。顔認識における敵対的サンプル検出法で、双方向の属性–ニューロン対応づけを利用して属性主導のモデルを作成し、7種類の攻撃に対して検出精度94%、偽陽性率9.91%を達成し、特徴圧縮を上回る。
Adversarial sample attacks perturb benign inputs to induce DNN misbehaviors. Recent research has demonstrated the widespread presence and the devastating consequences of such attacks. Existing defense techniques either assume prior knowledge of specific attacks or may not work well on complex models due to their underlying assumptions. We argue that adversarial sample attacks are deeply entangled with interpretability of DNN models: while classification results on benign inputs can be reasoned based on the human perceptible features/attributes, results on adversarial samples can hardly be explained. Therefore, we propose a novel adversarial sample detection technique for face recognition models, based on interpretability. It features a novel bi-directional correspondence inference between attributes and internal neurons to identify neurons critical for individual attributes. The activation values of critical neurons are enhanced to amplify the reasoning part of the computation and the values of other neurons are weakened to suppress the uninterpretable part. The classification results after such transformation are compared with those of the original model to detect adversaries. Results show that our technique can achieve 94% detection accuracy for 7 different kinds of attacks with 9.91% false positives on benign inputs. In contrast, a state-of-the-art feature squeezing technique can only achieve 55% accuracy with 23.3% false positives.
研究の動機と目的
- 敵対的攻撃がDNN、特に顔認識における解釈性と絡み合っていることを動機づける。
- 属性–ニューロンの相関を用いてBenignとAdversarial inputsを見分ける検出法(AmI)を開発する。
- 属性ガイド変換が既存手法より敵対検出を改善することを示す。
- 広く用いられる顔認識システム(VGG-Face)に対する複数の攻撃でAmIを評価する。
提案手法
- 人間が知覚できる属性と内部ニューロンとの双方向対応づけを確立して属性証人を特定する。
- 属性代替と属性保持を通じて属性証人を抽出し、各属性に関連する堅牢なニューロン集合を得る。
- 推論時に証人ニューロンを強化し、非証人ニューロンを弱化させる属性主導モデルを構築する。
- 元のモデルと属性主導モデルを並行して実行し、予測に不一致がある入力を敵対的とマークする。
- マージンを除去する等、解釈不能な特徴をさらに抑制する属性保存変換を適用する。
- 検出性能を最適化するため、無害なチューニングセットで強化/弱化のパラメータを調整する。
実験結果
リサーチクエスチョン
- RQ1モデルの決定が人間が知覚できる属性に依存しているかどうかで、顔認識の敵対的サンプルを識別できるか。
- RQ2属性とニューロンの双方向推論は、片方向の手法より検出精度を向上させるか。
- RQ3属性主導モデルは、データセット全体でさまざまな攻撃タイプを検出するのにどれだけ効果的か。
- RQ4AmIと既存の防御法とを比較した場合、検出精度と偽陽性のトレードオフはどうなるか。
- RQ5属性証人は属性間で転移可能か、アブレーションに対して堅牢か。
主な発見
- AmI は seven attack types に対して 94% average detection accuracy、benign inputs での 9.91% false positives を達成する。
- Feature squeezing は同じ設定で 55% accuracy、23.32% false positives に達する (AmI は FS を上回る)。
- VGG-Face から抽出された属性証人は、データセットを跨いで高品質のまま (over 93% attribute detection accuracy) を維持している。
- Bi-directional reasoning for witness extraction yields better results than one-direction approaches.
- Ablations show weakening plus strengthening yields better results than using either in isolation, with some trade-offs in false positives.
- AmI remains robust when excluding subsets of attribute witnesses, with detection accuracy degrading only slightly (<5%) when removing a single attribute.
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。