QUICK REVIEW

[論文レビュー] Rethinking the Trigger of Backdoor Attack

Yiming Li, Tongqing Zhai|arXiv (Cornell University)|Apr 9, 2020

Advanced Malware Detection Techniques参考文献 73被引用数 98

ひとこと要約

本論文は、静的トリガを用いたバックドア攻撃がトリガの位置と外観に敏感であることを示し、変換ベースの防御を提案し、さらにトリガの変更に対する耐性を高め、物理的なシナリオにも適用可能とする変換ベースの強化を導入している。

ABSTRACT

Backdoor attack intends to inject hidden backdoor into the deep neural networks (DNNs), such that the prediction of the infected model will be maliciously changed if the hidden backdoor is activated by the attacker-defined trigger, while it performs well on benign samples. Currently, most of existing backdoor attacks adopted the setting of \emph{static} trigger, $i.e.,$ triggers across the training and testing images follow the same appearance and are located in the same area. In this paper, we revisit this attack paradigm by analyzing the characteristics of the static trigger. We demonstrate that such an attack paradigm is vulnerable when the trigger in testing images is not consistent with the one used for training. We further explore how to utilize this property for backdoor defense, and discuss how to alleviate such vulnerability of existing attacks.

研究の動機と目的

バックドア・トリガの位置と外観が隠されたバックドアの活性化にどのように影響するかを調査する。
静的トリガーを用いたバックドア攻撃が空間的/外観の変更に脆弱かどうかを評価する。
静的トリガーによるバックドアを緩和するための、シンプルな変換ベースの防御を提案する。
トリガの変化に対する耐性を向上させるため、既存のバックドア攻撃へ変換ベースの強化を提案する。
強化された攻撃を物理世界のバックドアのシナリオに関連付ける。

提案手法

トリガー S と良性画像 x を用いてバックドアスタンピングプロセスをモデル化し、x_pooled = (1-α)·x + α·x_trigger とする。
良性サンプルと毒物化されたサンプルの混合を用いて訓練し、良性入力で高い精度を達成しつつ、トリガー入力をターゲットラベルへ誤分類させる。
トリガーの特徴を位置と外観として定義し、攻撃成功を ASR（攻撃成功率）で定量化する。
静的トリガーに対して、トリガー位置の小さな移動や外観の変化がASRを著しく低下させることを示す。
トリガーの活性化を妨げるために、テスト画像を前処理する変換ベースの防御 T（例: 反転、スケール）を提案する。
訓練時にランダムな変換をサンプリングして攻撃を防衛に耐性づける、変換ロバストな強化を毒物化画像に導入する。
強化された攻撃が空間的変換下でも高い ASR を維持することを示し、このアプローチを物理バックドア攻撃と関連づける。

実験結果

リサーチクエスチョン

RQ1静的トリガーを用いたバックドア攻撃の有効性は、トリガーの位置や外観を変更することで低減できるか。
RQ2モデルやデータへのアクセスなしに、変換ベースの前処理防御は静的トリガーのバックドアを緩和できるか。
RQ3トリガーの変更（物理的シナリオを含む）に対して頑健になるよう、バックドア攻撃をどのように強化できるか。

主な発見

バックドア攻撃の性能（ASR）はトリガーの位置に非常に敏感であり、トリガーをわずか2–3ピクセル移動させるとASRがほぼ100%から50%未満に低下する。
トリガーの外観を変更（0以外のピクセル値）するとASRが低下し、外観変更に対する感度を示す。
テスト画像に適用される単純な空間変換防御（例: Flip, ShrinkPad）はASRを著しく低減し、ShrinkPad-4は多くのケースでASRを90%以上低減する。
ランダムな変換下で毒物化画像を訓練する強化バックドア攻撃は、変換ベースの防御下でも高いASRを維持し（標準攻撃を上回ることが多い）。
強化攻撃は、物理的な攻撃シナリオでも、写真撮影時にさまざまな距離や角度で現れるトリガーに対して頑健さを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。