[논문 리뷰] Detecting Backdoor Attacks on Deep Neural Networks by Activation Clustering
활성화 클러스터링(AC)을 소개합니다. AC는 신뢰된 데이터가 필요 없이 DNN에 백도어를 삽입하는 유해 학습 데이터를 탐지하고 모델을 복구하는 방법입니다. AC는 마지막 층 활성화를 분석하여 오염된 데이터와 깨끗한 데이터를 구분하고 자동화된 복구 옵션을 제공합니다.
While machine learning (ML) models are being increasingly trusted to make decisions in different and varying areas, the safety of systems using such models has become an increasing concern. In particular, ML models are often trained on data from potentially untrustworthy sources, providing adversaries with the opportunity to manipulate them by inserting carefully crafted samples into the training set. Recent work has shown that this type of attack, called a poisoning attack, allows adversaries to insert backdoors or trojans into the model, enabling malicious behavior with simple external backdoor triggers at inference time and only a blackbox perspective of the model itself. Detecting this type of attack is challenging because the unexpected behavior occurs only when a backdoor trigger, which is known only to the adversary, is present. Model users, either direct users of training data or users of pre-trained model from a catalog, may not guarantee the safe operation of their ML-based system. In this paper, we propose a novel approach to backdoor detection and removal for neural networks. Through extensive experimental results, we demonstrate its effectiveness for neural networks classifying text and images. To the best of our knowledge, this is the first methodology capable of detecting poisonous data crafted to insert backdoors and repairing the model that does not require a verified and trusted dataset.
연구 동기 및 목표
- 신경망의 포 poisoning 및 백도어 공격에 대한 안전 문제를 제기한다.
- 오염된 샘플을 탐지하기 위해 신뢰된 데이터가 필요하지 않은 데이터 기반 방어책을 제안한다.
- 네트워크 활성화를 기반으로 오염된 데이터와 합법 데이터를 구분하기 위해 활성화 클러스터링을 개발한다.
- 클러스터를 요약하는 메커니즘과 백도어를 가진 모델을 효과적으로 복구하는 방법을 제공한다.
제안 방법
- 의심 샘플을 포함한 신뢰되지 않는 데이터로 DNN을 학습한다.
- 모든 학습 샘플에 대해 마지막 은닉층의 활성화를 추출한다.
- 각 라벨의 활성화에 대해 차원 축소(ICA)를 적용한 뒤 k-means(k=2)로 클러스터링한다.
- 분석 방법(제외 재분류(Exclusionary Reclassification, ExRe), 상대적 크기, 실루엣 점수)을 사용해 어떤 클러스터에 오염 데이터가 있는지 식별한다.
- 선택적으로 클러스터를 요약한다(비전 데이터의 이미지 스프라이트; 텍스트의 LDA 주제) 검증을 돕기 위해.
- 제거된 데이터 제거 또는 오염 샘플을 원래 클래스에 재레이블링하고 재훈련으로 복구한다.
실험 결과
연구 질문
- RQ1신경망에서 Activation Clustering이 신뢰된 데이터 없이도 오염된 데이터와 합법적 데이터를 신뢰할 수 있게 구분할 수 있는가?
- RQ2AC는 다중 모드 클래스 및 여러 백도어, 그리고 다수의 소스에서의 오염에 대해 얼마나 강건한가?
- RQ3도메인 간에 어떤 자동화된 기준(ExRe, 상대적 크기, 실루엣 점수)이 오염된 클러스터를 가장 잘 식별하는가?
- RQ4AC가 탐지뿐 아니라 최소 재훈련으로 백도어를 복구할 수 있는가?
- RQ5클러스터의 시각적/텍스트 요약이 인간의 poisoning 확인에 도움이 되는가?
주요 결과
- AC는 MNIST에서 poisoning 수준(10%, 15%, 33%)에 대해 거의 완벽한 포 독 탐지 성능을 달성한다(클래스당 100% F1 및 약 100% 정확도).
- AC는 원시 입력 클러스터링보다 우수하며, 예를 들어 MNIST 전체 AC 정확도 99.97% 대 원시 클러스터링 58.61%와 같이 크게 앞선다.
- LISA 및 Rotten Tomatoes 텍스트 데이터에서 AC는 테스트된 시나리오에서 오염 샘플 탐지에 대해 약 100% 정확도와 F1을 달성한다.
- AC는 다중 모드 타깃 클래스와 다수의 오염 소스에 대해 varied 설정에서도 약 99.9–100% 정확도와 F1을 유지한다.
- 제외 재분류(ExRe)는 오염된 클러스터와 그 원천 클래스를 일관되게 식별하며, 다른 클러스터 분석 지표보다 우수하다.
- 오염 데이터를 재레이블링하고 재훈련을 계속하여 백도어를 수정하는 방식이 처음부터 학습하는 것(80에포크)보다 더 빨리 수렴하고(14 에포크), 표준 정확도는 유지하면서 백도어를 제거한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.