QUICK REVIEW

[論文レビュー] Label-Consistent Backdoor Attacks

Alexander Turner, Dimitris Tsipras|arXiv (Cornell University)|Dec 5, 2019

Adversarial Robustness in Machine Learning参考文献 37被引用数 43

ひとこと要約

本論文は、GAN潜在空間補間と敵対的摂動を用いて、推論時にバックドアを作動させるよう、妥当で正しくラベル付けされた汚染入力を注入する、ラベル整合性のあるバックドア攻撃を実証する。

ABSTRACT

Deep neural networks have been demonstrated to be vulnerable to backdoor attacks. Specifically, by injecting a small number of maliciously constructed inputs into the training set, an adversary is able to plant a backdoor into the trained model. This backdoor can then be activated during inference by a backdoor trigger to fully control the model's behavior. While such attacks are very effective, they crucially rely on the adversary injecting arbitrary inputs that are---often blatantly---mislabeled. Such samples would raise suspicion upon human inspection, potentially revealing the attack. Thus, for backdoor attacks to remain undetected, it is crucial that they maintain label-consistency---the condition that injected inputs are consistent with their labels. In this work, we leverage adversarial perturbations and generative models to execute efficient, yet label-consistent, backdoor attacks. Our approach is based on injecting inputs that appear plausible, yet are hard to classify, hence causing the model to rely on the (easier-to-learn) backdoor trigger.

研究の動機と目的

明らかに誤ってラベル付けされた汚染を回避する、ラベル整合性を保つバックドア攻撃を動機づけ、形式化する。
自然特徴に基づく分類が難しくなるように汚染入力を作成でき、正しいラベルを保持することを示す。
このような入力を生成する2つの摂動ベースの手法を開発する：GAN潜在空間補間と敵対的摂動。
バックドアトリガを目立たなくし、データ拡張に対して頑健にする。
CIFAR-10での実証評価を提供し、攻撃の有効性と検知可能性を定量化する。

提案手法

GANまたはオートエンコーダの潜在空間を用いて、ターゲットクラスの入力を誤ったクラスに向かって補間し、次にバックドアトリガを適用してラベルを元のターゲットラベルのままにする。
汚染入力に対して敵対的摂動（PGD）を適用し、固定ラベルに関する訓練損失を最大化する一方で、摂動をl_pノルムで小さく保つ。
攻撃の成功率とラベル整合性の観点から、潜在空間補間と敵対的摂動を比較する。
視認性を低くしたバックドアトリガを設計し、データ拡張に対する頑健性を確保する（例：四隅の複製）。
異なる汚染割合とデータ拡張設定の下で、トリガの視認性と有効性を評価する。

実験結果

リサーチクエスチョン

RQ1汚染入力がラベル整合的であり、明らかに誤ラベルでない場合でも、バックドア攻撃は有効であり得るか。
RQ2潜在空間補間と敵対的摂動は、標準的な汚染入力と比べてより効果的なラベル整合バックドアを生み出すか。
RQ3トリガ設計とデータ拡張は、ラベル整合バックドアの隠密性と頑健性にどう影響するか。
RQ4摂動強度を調整したとき、攻撃成功とラベル妥当性のトレードオフはどうなるか。
RQ5クラスごとの汚染割合は、ラベル整合スキームの下で攻撃成功率にどう影響するか。

主な発見

ラベル整合の汚染入力は substantial な攻撃成功を達成でき、約半数のクラスで50%以上の成功率を、epsilon=300、tau=0.2のl2摂動を用いた場合、75入力を注入して得られる。
敵対的摂動はGANベースの補間より有効性で上回り、特に許容摂動が大きい場合に顕著。
トリガの視認性を下げると、非常に小さな汚染割合では攻撃成功が下がるが、ターゲットクラスの6%またはそれ以上を汚染する場合には依然として有効。
データ拡張は改良されたトリガで攻撃成功を高め得、テスト時に完全に可視なトリガを使用すると、300入力以上を汚染する場合には成功率をほぼ100%に近づける。
汚染が極端な場合（例：100%汚染）を除き、標準精度を顕著に低下させない。
トリガなしの汚染サンプルは高い訓練損失を示し、正しく分類されるためにはバックドアトリガに依存していることを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。