Skip to main content
QUICK REVIEW

[論文レビュー] Defending Neural Backdoors via Generative Distribution Modeling

Ximing Qiao, Yukun Yang|arXiv (Cornell University)|Oct 10, 2019
Adversarial Robustness in Machine Learning被引用数 65
ひとこと要約

この論文は MESA を提案し、未知の有効なバックドアトリガ分布をモデル化するための max-entropy staircase approximator を用いて、それを用いてニューラルバックドアに対するロバストな防御を実現する。

ABSTRACT

Neural backdoor attack is emerging as a severe security threat to deep learning, while the capability of existing defense methods is limited, especially for complex backdoor triggers. In the work, we explore the space formed by the pixel values of all possible backdoor triggers. An original trigger used by an attacker to build the backdoored model represents only a point in the space. It then will be generalized into a distribution of valid triggers, all of which can influence the backdoored model. Thus, previous methods that model only one point of the trigger distribution is not sufficient. Getting the entire trigger distribution, e.g., via generative modeling, is a key to effective defense. However, existing generative modeling techniques for image generation are not applicable to the backdoor scenario as the trigger distribution is completely unknown. In this work, we propose max-entropy staircase approximator (MESA), an algorithm for high-dimensional sampling-free generative modeling and use it to recover the trigger distribution. We also develop a defense technique to remove the triggers from the backdoored model. Our experiments on Cifar10/100 dataset demonstrate the effectiveness of MESA in modeling the trigger distribution and the robustness of the proposed defense method.

研究の動機と目的

  • バックドアのトリガがピクセル空間の連続分布を形成する問題を、単一のポイントではなく公式化する。
  • sampling-free な生成モデルアプローチ(MESA)を提案し、直接サンプリングせずに有効なトリガ分布を回復する。
  • 回復したトリガ分布を用いてバックドアを再訓練・除去する防御パイプラインを開発する。
  • CIFAR-10/100 の複数のトリガ種に対して方法の頑健性と有効性を示す。

提案手法

  • 未知のトリガ分布を近似するために N 個のサブモデルをアンサンブルする max-entropy staircase approximator(MESA)を導入する。
  • 問題をサンプリングフリー生成として定式化し、トリガの未知分布 f を 上限付き密度と代理の ASR ベースのテスト関数 F で学習する。
  • エントロピー最大化を MINE による相互情報推定器を用いて、階段閾値 β_i の下でサブモデル G_theta_i を訓練する。
  • トリガ分布をターゲット分布 F に近づけるため、β_i に基づくエントロピーを用いてサブモデルをエンサンブルし、トリガ分布 f を再構成する。
  • 有効なトリガをモデル化するための MESA の実装アルゴリズムとして Algorithm 2、MESA のエンサンブル機構として Algorithm 1 を提供する。
  • 防御を三段階に定義する:攻撃対象クラスを検出し、モデリングされた分布から抽出したトリガで再訓練し、β_i を最適な防御のために評価/調整する。

実験結果

リサーチクエスチョン

  • RQ1バックドアのトリガ分布を、単一のトリガーポイントではなくピクセル空間の分布として効果的にモデル化できるか。
  • RQ2MESA はサンプリングせずに有効なトリガ分布を回復できるか。
  • RQ3回復したトリガ分布に基づく防御は、単一の反転トリガー基線と比較して多様なトリガに対する ASR を頑健に低減できるか。
  • RQ4ハイパーパラメータの α および β_i がモデル化された分布の質と防御性能にどう影響するか。
  • RQ5提案された分布ベースの防御は、異なる CIFAR データセットとターゲットクラスに対して有効か。

主な発見

  • MESA は CIFAR-10/100 の様々な 3x3 およびカラー・トリガに対して有効なトリガ分布をモデル化できる。
  • モデリングされたトリガ分布に基づく防御は、元のトリガの ASR を 92.3%–99.8% から 1.2%–5.9% に低減する。
  • 単一の反転トリガーを用いた基線防御は、分散がはるかに大きく、最悪ケースの ASR が最大で 51% に達するケースがある。
  • MESA によって識別される標的クラス検出は、攻撃されたクラスと非攻撃クラスを信頼性高く区別する(真のターゲットクラスの ASR は高く、他のクラスは低い)。
  • β_i=0.9 を用いたエンサンブリングは最良の防御性能を示し、防御後の平均 ASR が約 3.4%(最悪ケース 5.9%)となる。
  • 防御の頑健性は、CIFAR-10/100 におけるブラック・ホワイト・トリガとランダムカラー・トリガの両方で実証される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。