QUICK REVIEW

[論文レビュー] Input-Aware Dynamic Backdoor Attack

Anh Nguyen, Anh Tran|arXiv (Cornell University)|Oct 16, 2020

Adversarial Robustness in Machine Learning参考文献 22被引用数 156

ひとこと要約

入力条件付きバックドアを導入し、画像ごとに固有のトリガーを生成。高い攻撃成功率を達成しつつ、現在の防御を回避し、入力間で再利用不可のままにする。

ABSTRACT

In recent years, neural backdoor attack has been considered to be a potential security threat to deep learning systems. Such systems, while achieving the state-of-the-art performance on clean data, perform abnormally on inputs with predefined triggers. Current backdoor techniques, however, rely on uniform trigger patterns, which are easily detected and mitigated by current defense methods. In this work, we propose a novel backdoor attack technique in which the triggers vary from input to input. To achieve this goal, we implement an input-aware trigger generator driven by diversity loss. A novel cross-trigger test is applied to enforce trigger nonreusablity, making backdoor verification impossible. Experiments show that our method is efficient in various attack scenarios as well as multiple datasets. We further demonstrate that our backdoor can bypass the state of the art defense methods. An analysis with a famous neural network inspector again proves the stealthiness of the proposed attack. Our code is publicly available at https://github.com/VinAIResearch/input-aware-backdoor-attack-release.

研究の動機と目的

固定的な普遍トリガーを超えるバックドアの脅威を動機づけるため、トリガーを入力依存かつ多様にする。
各入力に条件づけられた、識別可能で再利用不可のトリガーを生成するトリガー生成器を設計する。
訓練時にクロストリガーテストを用いて再利用不可を強制する。
MNIST、CIFAR-10、GTSRBで手法を評価し、先端防御と対峙させる。
単純な画像規則化およびネットワーク検査技法に対する堅牢性を評価する。

提案手法

入力 x をトリガー t = g(x) に写像するエンコーダ-デコーダ型トリガージェネレータ g を用いる。
飽和を避け、入力間で異なるトリガーを保証する多様性損失 Ldiv でトリガーの多様性を強制する。
訓練中にクロストリガーテストを導入して、入力間でのトリガー再利用不可を保証する。
分類と多様性の目標を合わせた複合目的関数 Ltotal = Lcla + λdiv Ldiv で訓練する。
訓練と評価では、クリーン、攻撃（入力特異トリガーで毒化）、クロストリガー（別の入力のトリガーで毒化）の3つの動作モードで運用する。
MNIST、CIFAR-10、GTSRBで最先端防御（Neural Cleanse、Fine-Pruning、STRIP、Mode Connectivity）に対して評価する。

実験結果

リサーチクエスチョン

RQ1毒化データ上の攻撃有効性を保ちながら、トリガーを画像ごとに変化させるよう入力に依存させるバックドア・トリガーは作れるか？
RQ2多様性を強制するトリガー生成器は、標準的なバックドア防御を回避する再利用不可の入力特異トリガーを生み出すか？
RQ3提案されたクロストリガー検査は、バックドアの再利用不可と検出器の検出可能性にどのように影響するか？
RQ4入力認識型バックドアは、一般的な画像の正則化や目に見えるネットワーク検査技法に対して堅牢か？
RQ5単一ターゲットと全対全（マルチターゲット）シナリオにおける攻撃性能とステルス性はどのようか？

主な発見

入力認識型バックドアは、MNIST、CIFAR-10、および GTSRB で毒化データに対してほぼ100%の攻撃成功率を達成し、クリーン精度を維持する。
クロストリガーの精度は 88.16% から 96.80% の範囲で、トリガーが不一致の入力には一般化しないことを示している。
この攻撃は Neural Cleanse、Fine-Pruning、Mode Connectivity を含む主要な防御を標準評価設定下で回避する。
デプロイ時の STRIP 相当のテストでは、コンテンツの変更で攻撃が無効化され、クリーンモデルと同様の高エントロピーを生み出すため、バックドアを信頼性高く検出できない。
このバックドアは単純な画像正則化下で堅牢で、GradCam 検査下でもステルス性が高く、従来の固定トリガー型バックドアとは異なる。
全対全攻撃（マルチターゲット）は強力な性能を維持するが、攻撃精度は単一ターゲットケースと比べてわずかに低下する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。