[논문 리뷰] Backdoor Defense via Decoupling the Training Process
이 논문은 self-supervised learning을 통해 먼저 정제된 백본을 학습하고, 그다음 라벨이 있는 데이터를 사용해 분류기를 훈련하며, 마지막으로 high-credible 및 low-credible 샘플을 사용한 semi-supervised 방식으로 미세 조정하여 poisoning 기반 backdoor 공격에 대응하되 benign accuracy를 손상시키지 않는 decoupling 기반 방어(DBD)를 제안한다.
Recent studies have revealed that deep neural networks (DNNs) are vulnerable to backdoor attacks, where attackers embed hidden backdoors in the DNN model by poisoning a few training samples. The attacked model behaves normally on benign samples, whereas its prediction will be maliciously changed when the backdoor is activated. We reveal that poisoned samples tend to cluster together in the feature space of the attacked DNN model, which is mostly due to the end-to-end supervised training paradigm. Inspired by this observation, we propose a novel backdoor defense via decoupling the original end-to-end training process into three stages. Specifically, we first learn the backbone of a DNN model via \emph{self-supervised learning} based on training samples without their labels. The learned backbone will map samples with the same ground-truth label to similar locations in the feature space. Then, we freeze the parameters of the learned backbone and train the remaining fully connected layers via standard training with all (labeled) training samples. Lastly, to further alleviate side-effects of poisoned samples in the second stage, we remove labels of some `low-credible' samples determined based on the learned model and conduct a \emph{semi-supervised fine-tuning} of the whole model. Extensive experiments on multiple benchmark datasets and DNN models verify that the proposed defense is effective in reducing backdoor threats while preserving high accuracy in predicting benign samples. Our code is available at \url{https://github.com/SCLBD/DBD}.
연구 동기 및 목표
- End-to-end 감독 하에서 백도어가 특징 공간에서 클러스터링된다는 것을 밝히고 강인한 DNN 학습의 동기를 제시한다.
- 백본 학습, 분류기 학습, semi-supervised 미세조정을 분리하는 3단계 방어를 제안한다.
- 정제된 백본이 백도어 형성을 저해하고 벤ign한 정확도를 벤치마크 전반에서 유지함을 보인다.
제안 방법
- 라벨이 없는 데이터에 대해 self-supervised learning으로 정제된 백본을 학습한다.
- 백본을 고정하고 남은 fully connected 계층을 라벨이 있는 데이터로 학습한다.
- 고신뢰도 샘플을 식별하기 위해 손실을 계산하고, semi-supervised 미세조정을 위해 저신뢰도 샘플의 레이블을 제거한다.
- 2단계에서 Poisoned와 Benign 샘플 간의 손실 차이를 증폭시키기 위해 대칭 교차 엔트로피를 사용한다.
- 고신뢰도 레이블이 있는 샘플과 저신뢰도 미레이블 샘플을 사용하여 전체 모델을 semi-supervised 학습으로 미세조정한다.
실험 결과
연구 질문
- RQ1Poisoning-based 공격 하에서 self-supervised 백본 학습과 supervised 분류기 학습으로의 분리를 통해 백도어 형성을 예방할 수 있는가?
- RQ2고신뢰도 샘플을 활용한 semi-supervised 미세조정이 오염된 데이터의 악영향을 줄이면서 benign 정확도를 보존하는가?
- RQ3제안된 방어가 일반적인 백도어 공격(BadNets, Blended, WaNet, Label-Consistent)을 표준 벤치마크에서 어떻게 수행하는가?
- RQ4자체적으로 감독되는 self-supervised 단계에 대한 적응형 공격에 방어가 견고한가?
주요 결과
- DBD는 CIFAR-10 및 ImageNet 벤치마크의 대부분 케이스에서 ASR(attack success rate)을 사실상 0에 가깝게 크게 감소시킨다.
- Benign accuracy(BA)는 기준선 수준에 가깝게 유지되며, 특정 공격 시나리오에서만 약간의 감소가 보고된다.
- 2단계에서 대칭 교차 엔트로피를 사용하면 표준 교차 엔트로피에 비해 poisoned와 benign 샘플 간의 구분이 더 잘 된다.
- 고신뢰도 샘플을 활용한 semi-supervised 미세조정 단계가 백도어 효과를 더 완화하면서 low-credible 샘플의 정보를 활용한다.
- 각 구성요소(self-supervised 백본, SCE 손실, high-credible 필터링, SSL 미세조정)가 방어 효과에 기여한다는 연구의 축약 결과를 보인다.
- 이 방어는 self-supervised 단계를 노리는 적응형 공격 시나리오에 대해 탄력성을 보여준다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.