[논문 리뷰] Invisible Backdoor Attacks on Deep Neural Networks via Steganography and Regularization
논문은 두 가지 보이지 않는 백도어 공격 방법—스테가노그래피 기반 트리거 임베딩과 정규화 기반 트리거 생성—을 제시하고, 새로운 지각 지표를 사용해 MNIST, CIFAR-10, CIFAR-100, GTSRB에서 효과성과 은닉성을 평가한다.
Deep neural networks (DNNs) have been proven vulnerable to backdoor attacks, where hidden features (patterns) trained to a normal model, which is only activated by some specific input (called triggers), trick the model into producing unexpected behavior. In this paper, we create covert and scattered triggers for backdoor attacks, invisible backdoors, where triggers can fool both DNN models and human inspection. We apply our invisible backdoors through two state-of-the-art methods of embedding triggers for backdoor attacks. The first approach on Badnets embeds the trigger into DNNs through steganography. The second approach of a trojan attack uses two types of additional regularization terms to generate the triggers with irregular shape and size. We use the Attack Success Rate and Functionality to measure the performance of our attacks. We introduce two novel definitions of invisibility for human perception; one is conceptualized by the Perceptual Adversarial Similarity Score (PASS) and the other is Learned Perceptual Image Patch Similarity (LPIPS). We show that the proposed invisible backdoors can be fairly effective across various DNN models as well as four datasets MNIST, CIFAR-10, CIFAR-100, and GTSRB, by measuring their attack success rates for the adversary, functionality for the normal users, and invisibility scores for the administrators. We finally argue that the proposed invisible backdoor attacks can effectively thwart the state-of-the-art trojan backdoor detection approaches, such as Neural Cleanse and TABOR.
연구 동기 및 목표
- MLaaS에서 백도어 공격의 실용성과 보이지 않는 트리거의 필요성을 강조하여 연구를 동기화.
- 두 가지 보이지 않는 백도어 접근법 제시: 스테가노그래피 기반 트리거 임베딩 및 정규화 기반 트리거 생성.
- 백도어 공격 생성을 위한 이중 최적화 프레임워크를 형식화.
- 인간 지각 기반 은닉성 지표(PASS와 LPIPS)를 정의하고 활용하여 은닉성 평가.
제안 방법
- untainted 데이터에서 기능을 유지하면서 poisoned 데이터에서 공격 성공을 높이는 이중 최적화 문제로 백도어 형성 모델링.
- Attack 1: LSB 스테가노그래피를 이용해 트리거를 학습 데이터에 임베딩하여 은닉성 달성.
- Attack 2: Lp-norm 정규화를 통해 트리거를 흩어 시각적 탐지를 최소화하면서 뉴런 활성화를 극대화하도록 트리거 생성.
- 사전 학습된 모델을 대상으로 사용하고 오염된 데이터로 재훈련하여 백도어 주입.
- PASS와 LPIPS로 은닉성 평가, 표준 백도어 메트릭으로 기능 평가.
실험 결과
연구 질문
- RQ1인간이 인지할 수 없을 정도로 DNN 입력에 보이지 않는 트리거를 임베딩하면서 백도어를 활성화할 수 있는가?
- RQ2스테가노그래피 기반 및 정규화 기반 트리거는 여러 데이터셋과 모델 아키텍처에서 여전히 효과적인가?
- RQ3제안된 은닉성 지표가 공격 성공 및 일반 모델 성능과 어떤 상관관계가 있는가?
- RQ4Invisible backdoors는 Neural Cleanse와 TABOR 같은 최신 백도어 방어를 어느 정도 회피하는가?
주요 결과
- 보이지 않는 백도어는 깨끗한 데이터에서 모델 기능을 유지하면서 높은 공격 성공률을 달성한다.
- LSB 임베딩을 통한 스테가노그래피 기반 트리거는 트리거 크기, 은닉성(PASS/LPIPS), 필요 재학습 에폭 사이의 타협을 보인다.
- 정규화 기반 트리거는 특정 뉴런을 활성화하는 작은 섭동을 만들어 제한된 데이터와 학습으로도 효과적인 백도어를 가능하게 한다.
- 제안된 은닉성 지표 PASS와 LPIPS는 백도어 트리거의 인간 인지 은닉성을 정량적으로 측정한다.
- 보이지 않는 백도어는 Neural Cleanse와 TABOR 같은 방어로부터 탐지를 회피할 가능성이 있다.
- 실험은 MNIST, CIFAR-10, CIFAR-100, GTSRB 데이터셋에서 이 방법들의 효과를 입증한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.