QUICK REVIEW

[論文レビュー] Backdoor Attack in the Physical World

Yiming Li, Tongqing Zhai|arXiv (Cornell University)|Apr 6, 2021

Adversarial Robustness in Machine Learning参考文献 16被引用数 36

ひとこと要約

静的トリガーを用いた背後攻撃は、物理世界で訓練時と異なる検証トリガーの場合、脆弱であることを示し、こうした変換に頑健な変換ベースの防御と強化攻撃を提案し、CIFAR-10の評価と物理世界でのデモを実施。

ABSTRACT

Backdoor attack intends to inject hidden backdoor into the deep neural networks (DNNs), such that the prediction of infected models will be maliciously changed if the hidden backdoor is activated by the attacker-defined trigger. Currently, most existing backdoor attacks adopted the setting of static trigger, $i.e.,$ triggers across the training and testing images follow the same appearance and are located in the same area. In this paper, we revisit this attack paradigm by analyzing trigger characteristics. We demonstrate that this attack paradigm is vulnerable when the trigger in testing images is not consistent with the one used for training. As such, those attacks are far less effective in the physical world, where the location and appearance of the trigger in the digitized image may be different from that of the one used for training. Moreover, we also discuss how to alleviate such vulnerability. We hope that this work could inspire more explorations on backdoor properties, to help the design of more advanced backdoor attack and defense methods.

研究の動機と目的

訓練時のトリガーと異なる位置や外観を持つテスト時トリガーの場合、静的トリガー背後攻撃が依然として効果的かを調査する。
既存の静的トリガー背後攻撃が画像変換に対して脆弱であるかを評価する。
モデルやデータの変更なしでこの種の攻撃を緩和する変換ベースの防御を提案する。
一般的な画像変換の下でも有効であり続ける強化された背後攻撃を提案する。
強化攻撃と物理世界の背後攻撃シナリオとの関連性を示す。

提案手法

モデルおよびデータ設定：CIFAR-10 上の BadNets を VGG-19 および ResNet-34 を用い、3x3 の黒-灰色トリガーを使用。
トリガーを独立した2つの属性（位置と外観）で特徴づける（最小被覆ボックスとトリガーパターン）。
推論時のトリガーの位置の小さなシフトや外観の変更に対して、攻撃成功率（ASR）を評価する。
テスト画像を変換（例えば反転、スケーリング）で前処理する変換ベースの防御を提案する。
パラメータ化された変換ファミリー Theta を用いて変換されたポイズン画像のセットで訓練することで強化攻撃を開発する；全変換空間を近似するためにサンプリング手法を用いる。
強化攻撃が、デジタル化により変換が生じる物理世界の設定とどのように関連し、成功しうるかを示す。

実験結果

リサーチクエスチョン

RQ1テスト時のトリガーが訓練時のトリガーと位置や外観が異なる場合、静的トリガー背後攻撃は有効であり続けるか？
RQ2モデルやデータアクセスなしに、単純な変換ベースの前処理防御で背後攻撃の効果を低減できるか？
RQ3物理世界で遭遇するものを含む一般的な変換に対して頑健であり続けるよう、背後攻撃を強化できるか？
RQ4変換ベースの防御の下で強化攻撃はどのように性能を発揮し、物理世界での有効性に結びつくか？

主な発見

静的トリガー攻撃はトリガーの位置に敏感であり、わずかなシフト（数ピクセル）でASRがほぼ100%から50%以下に低下する。
トリガーの外観を変更すると、たとえ modest にも、ASRが著しく低下し、外観の変化に対する脆弱性を示す。
ShrinkPad4 防御は検討対象の攻撃とモデル全体で ASR を90%超低減し、Flip はいくつかの攻撃を効果的に防御する。一方 Auto-Encoder はクリーン精度を保つ一方で ASR の低減効果は一般的に小さい。
Enhanced backdoor attacks (with random transformations during training) maintain high ASR under transformation-based defenses, outperforming standard attacks in most tested configurations.
物理世界のテストでは、BadNets+（強化攻撃）は実世界のキャプチャ全般で成功するのに対し、標準の BadNets は失敗し、強化と物理的な背後側との実用的な関連を示している。
本研究は、変換による防御を物理世界のトリガー変動に対する頑健性と関連づけ、より頑健な攻撃/防御手法を生み出す可能性を示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。