QUICK REVIEW

[論文レビュー] Adversarial Neuron Pruning Purifies Backdoored Deep Models

Dongxian Wu, Yisen Wang|arXiv (Cornell University)|Oct 27, 2021

Adversarial Robustness in Machine Learning参考文献 50被引用数 27

ひとこと要約

論文は Adversarial Neuron Pruning (ANP) を紹介。データ効率の高い防御で、敵対的ニューロン摂動に敏感なニューロンを剪定してバックドアを除去する。クリーンデータを少量使用し、バックドアトリガーは不要。

ABSTRACT

As deep neural networks (DNNs) are growing larger, their requirements for computational resources become huge, which makes outsourcing training more popular. Training in a third-party platform, however, may introduce potential risks that a malicious trainer will return backdoored DNNs, which behave normally on clean samples but output targeted misclassifications whenever a trigger appears at the test time. Without any knowledge of the trigger, it is difficult to distinguish or recover benign DNNs from backdoored ones. In this paper, we first identify an unexpected sensitivity of backdoored DNNs, that is, they are much easier to collapse and tend to predict the target label on clean samples when their neurons are adversarially perturbed. Based on these observations, we propose a novel model repairing method, termed Adversarial Neuron Pruning (ANP), which prunes some sensitive neurons to purify the injected backdoor. Experiments show, even with only an extremely small amount of clean data (e.g., 1%), ANP effectively removes the injected backdoor without causing obvious performance degradation.

研究の動機と目的

トリガーがなくてもニューロンの敵対的摂動がバックドア挙動を露呈する、バックドアが仕込まれたDNNの脆弱性を特定する。
トリガー知識や大幅なファインチューニングを必要とせず、敏感なニューロンを剪定してモデルを浄化する Adversarial Neuron Pruning (ANP) を提案する。
ANP が非常に少量のクリーンデータ（1%程度）でも強力なバックドア緩和を達成することを実証する。
既存の修復手法と比較し、ANP のデータ効率性と複数のバックドア攻撃に対する頑健性を示す。

提案手法

小さな因子で重みとバイアスをスケールするニューロン単位の摂動を形式化して、敵対的ニューロン摂動を作り出す。
バックドアが仕込まれたモデルは、ニューロン摂動の下で誤分類されやすく、良性モデルよりも脆弱であることを示す。
すべてのニューロンに対する剪定マスクを定義し、離散的な剪定問題の連続緩和を用いて最適化する。
射影勾配降下法を用いて、クリーンデータ精度と敵対的ニューロン摂動に対する頑健性をバランスさせるジョイント目的関数を解く。
正規化効果を保持するよう、Batch Normalization に適用するためにスケールとシフトパラメータを摂動する。
ファイニングを行わずにバックドア挙動を除去する剪定済みネットワーク f(·; m ⊙ w, b) を出力する。）

実験結果

リサーチクエスチョン

RQ1バックドアが仕込まれたDNNは、敵対的ニューロン摂動に対する感受性の高まりによって良性モデルと識別できるか。
RQ2敵対的摂動を通じて特定されたニューロンを剪定することで、クリーンデータの精度を保ちつつバックドアを効果的に除去できるか。
RQ3非常に限られたクリーンデータで、様々なバックドア攻撃に対して ANP はどう機能するか。
RQ4実用的なハイパーパラメータ（トレードオフ α、摂動バジェット ε）とそれらが頑健性と精度に与える影響は何か？

主な発見

敵対的ニューロン摂動は誤分類を引き起こし、トリガーがなくてもバックドアモデルをターゲットラベルへ向かわせる傾向がある。
ANP はクリーン精度の小さな低下のみでバックドア攻撃の成功率（ASR）を大幅に低減できる。
ファインチューニング、ファイン・プリューニング、他の修復法と比較して、ANP は1%のクリーンデータのみで複数のバックドア攻撃に対する頑健性をより高く達成する。
ANP はさまざまなアーキテクチャでも有効であり、閾値ベースまたは分数ベースのアプローチでニューロンを剪定し、一般的に ACC と ASR のトレードオフが有利になる。
ハイパーパラメータ α と ε は広い範囲に対して頑健性を示し、実用的なデフォルト値が複数の攻撃に対して高い性能を提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。