[논문 리뷰] Adversarial Neuron Pruning Purifies Backdoored Deep Models
요약: 이 논문은 Adversarial Neuron Pruning (ANP)을 도입합니다. 이는 백도어를 제거하기 위해 적대적 뉴런 교란에 민감한 뉴런을 가지치기하는 데이터 효율적 방어 기법으로, 깨끗한 데이터가 소량 필요하고 백도어 트리거가 없어도 작동합니다.
As deep neural networks (DNNs) are growing larger, their requirements for computational resources become huge, which makes outsourcing training more popular. Training in a third-party platform, however, may introduce potential risks that a malicious trainer will return backdoored DNNs, which behave normally on clean samples but output targeted misclassifications whenever a trigger appears at the test time. Without any knowledge of the trigger, it is difficult to distinguish or recover benign DNNs from backdoored ones. In this paper, we first identify an unexpected sensitivity of backdoored DNNs, that is, they are much easier to collapse and tend to predict the target label on clean samples when their neurons are adversarially perturbed. Based on these observations, we propose a novel model repairing method, termed Adversarial Neuron Pruning (ANP), which prunes some sensitive neurons to purify the injected backdoor. Experiments show, even with only an extremely small amount of clean data (e.g., 1%), ANP effectively removes the injected backdoor without causing obvious performance degradation.
연구 동기 및 목표
- 백도어 DNN에서 뉴런 교란이 트리거 없이도 백도어 동작을 드러내는 취약점을 식별한다.
- Trigger 지식이나 광범위한 파인튜닝 없이 민감한 뉴런을 가지치고 모델을 정화하기 위한 Adversarial Neuron Pruning (ANP)을 제안한다.
- 매우 적은 데이터(최소 1% 수준)로도 ANP가 강력한 백도어 완화를 달성함을 보인다.
- 여러 백도어 공격에 걸쳐 데이터 효율성과 강건성을 입증하고 기존의 수리 방법들과 비교한다.
제안 방법
- 가중치와 바이어스를 작은 비율로 확장시키는 뉴런-별 교란을 형식화하여 적대적 뉴런 교란을 생성한다.
- 백도어가 있는 모델이 양성 모델보다 뉴런 교란 하에서 잘못 분류되기 쉽다는 것을 보인다.
- 이산적인 가지치기 문제의 연속적 이완을 통해 모든 뉴런에 대한 가지치기 마스크를 정의하고 최적화한다.
- 프로젝티드 경사 하강법을 사용하여 깨끗한 데이터 정확도와 적대적 뉴런 교란에 대한 강건성의 균형을 맞추는 공동 목적을 해결한다.
- 배치 정규화(Batch Normalization)에 맞춰 스케일과 시프트 매개변수를 교란하여 정규화 효과를 보존하도록 방법을 적응한다.
- 미세 튜닝 없이 백도어 동작을 제거하는 가지치기된 네트워크 f(·; m ⊙ w, b)를 출력한다.
실험 결과
연구 질문
- RQ1백도어 DNN이 증가된 적대적 뉴런 교란에 대한 취약성으로 인해 양성 모델과 구별될 수 있는가?
- RQ2적대적 교란을 통해 식별된 뉴런을 가지치면 깨끗한 데이터 정확도를 보존하면서 백도어를 효과적으로 제거할 수 있는가?
- RQ3매우 제한된 깨끗한 데이터로 다양한 백도어 공격에서 ANP의 성능은 어떠한가?
- RQ4실용적인 하이퍼파라미터(alpha, epsilon)와 그것들이 강건성과 정확도에 미치는 영향은 무엇인가?
주요 결과
- 적대적 뉴런 교란은 트리거 없이도 백도어 모델을 목표 레이블 쪽으로 잘못 분류하도록 유도하는 경향이 있다.
- ANP는 깨끗한 정확도(ACC)가 소폭 감소하는 수준에서 백도어 공격 성공률(ASR)을 크게 감소시킬 수 있다.
- 파인튜닝, 핀-프루닝 및 기타 수리 방법과 비교하여, ANP는 단 1%의 깨끗한 데이터만으로도 다수의 백도어 공격에 대해 더 강한 강건성을 달성한다.
- ANP는 다양한 아키텍처에서도 효과적이며 임계값 기반 또는 비율 기반 접근으로 뉴런을 가지치되더라도 대체로 ACC와 ASR 간의 우수한 트레이드오프를 보인다.
- 하이퍼파라미터 alpha와 epsilon은 넓은 범위에 대해 강건함을 보이며, 실용적 기본값이 여러 공격에 대한 강력한 성능을 제공한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.