[論文レビュー] Backdoor Defense via Decoupling the Training Process
論文は、自己教師あり学習で純化されたバックボーンを最初に学習し、次にラベル付きデータで分類器を訓練し、最後に高信頼性サンプルと低信頼性サンプルを用いて半監視的にファインチューニングすることで、汚染型のバックドア攻撃に対抗しつつ健全な精度を損なわない decoupling-based defense (DBD) を提案します。
Recent studies have revealed that deep neural networks (DNNs) are vulnerable to backdoor attacks, where attackers embed hidden backdoors in the DNN model by poisoning a few training samples. The attacked model behaves normally on benign samples, whereas its prediction will be maliciously changed when the backdoor is activated. We reveal that poisoned samples tend to cluster together in the feature space of the attacked DNN model, which is mostly due to the end-to-end supervised training paradigm. Inspired by this observation, we propose a novel backdoor defense via decoupling the original end-to-end training process into three stages. Specifically, we first learn the backbone of a DNN model via \emph{self-supervised learning} based on training samples without their labels. The learned backbone will map samples with the same ground-truth label to similar locations in the feature space. Then, we freeze the parameters of the learned backbone and train the remaining fully connected layers via standard training with all (labeled) training samples. Lastly, to further alleviate side-effects of poisoned samples in the second stage, we remove labels of some `low-credible' samples determined based on the learned model and conduct a \emph{semi-supervised fine-tuning} of the whole model. Extensive experiments on multiple benchmark datasets and DNN models verify that the proposed defense is effective in reducing backdoor threats while preserving high accuracy in predicting benign samples. Our code is available at \url{https://github.com/SCLBD/DBD}.
研究の動機と目的
- エンドツーエンドの監視下でバックドアが特徴空間にクラスタリングされることを明らかにすることで、堅牢なDNN訓練を動機づける。
- バックボーン学習を分離し、分類器訓練を分離し、半監視ファインチューニングを分離する3段階の防御を提案する。
- 浄化されたバックボーンはバックドア形成を妨げ、ベネイン精度をベースラインに近い状態で維持することを、標準ベンチマークで示す。
提案手法
- ラベルなしデータ上で自己教師あり学習を用いて浄化されたバックボーンを学習する。
- バックボーンを固定し、残りの全結合層をラベル付きデータで訓練する。
- 高信頼性サンプルを識別するために損失を計算し、半監視ファインチューニングのために低信頼性サンプルからラベルを除去する。
- ステージ2で対称クロスエントロピーを用いて、汚染サンプルと健全サンプル間の損失差を拡張する。
- 高信頼性のラベル付きサンプルと低信頼性の未ラベルサンプルを用いた半監視学習で、全モデルをファインチューニングする。
実験結果
リサーチクエスチョン
- RQ1POISONINGベースの攻撃の下で自己教師ありステージをターゲットとした防御がバックドア形成を防げるか(デカップリング訓練による)?
- RQ2高信頼性サンプルを活用した半監禁ファインチューニングが、汚染データの悪影響を低減しつつ健全精度を維持できるか?
- RQ3提案手法は、標準ベンチマーク上の一般的なバックドア攻撃(BadNets、Blended、WaNet、Label-Consistent)に対してどのように性能を発揮するか?
- RQ4自己教師ありステージを対象とする適応型攻撃に対して防御は堅牢か?
主な発見
- DBDは、CIFAR-10およびImageNetのベンチマークでほとんどのケースで攻撃成功率(ASR)をほぼゼロに大幅低減する。
- 健全精度(BA)は基準レベルに近い状態を保ち、特定の攻撃シナリオ下でわずかな低下が報告されるだけである。
- ステージ2で対称クロスエントロピーを使用すると、標準のクロスエントロピーと比較して汚染サンプルと健全サンプルの分離が改善される。
- 高信頼性サンプルを活用した半監視ファインチューニング手順は、低信頼性サンプルからの情報を活用しつつバックドア効果をさらに緩和する。
- アブレーション研究により、各構成要素(自己教師ありバックボーン、SCE損失、高信頼性フィルタリング、SSLファインチューニング)が防御効果に寄与することが示される。
- 防御は自己教師ありステージを撃破するように設計された適応攻撃シナリオに対して堅牢性を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。