QUICK REVIEW

[논문 리뷰] Input-Aware Dynamic Backdoor Attack

Anh Nguyen, Anh Tran|arXiv (Cornell University)|2020. 10. 16.

Adversarial Robustness in Machine Learning참고 문헌 22인용 수 156

한 줄 요약

입력 조건부 백도어가 이미지별로 고유한 트리거를 생성하며, 현재 방어를 회피하고 입력 간 재사용 불가 상태를 유지하면서 공격 성공률이 높다.

ABSTRACT

In recent years, neural backdoor attack has been considered to be a potential security threat to deep learning systems. Such systems, while achieving the state-of-the-art performance on clean data, perform abnormally on inputs with predefined triggers. Current backdoor techniques, however, rely on uniform trigger patterns, which are easily detected and mitigated by current defense methods. In this work, we propose a novel backdoor attack technique in which the triggers vary from input to input. To achieve this goal, we implement an input-aware trigger generator driven by diversity loss. A novel cross-trigger test is applied to enforce trigger nonreusablity, making backdoor verification impossible. Experiments show that our method is efficient in various attack scenarios as well as multiple datasets. We further demonstrate that our backdoor can bypass the state of the art defense methods. An analysis with a famous neural network inspector again proves the stealthiness of the proposed attack. Our code is publicly available at https://github.com/VinAIResearch/input-aware-backdoor-attack-release.

연구 동기 및 목표

고정된 범용 트리거를 넘어 입력 의존적이고 다양한 트리거를 만들기 위해 백도어 위협을 동기부여한다.
각 입력에 조건화되어 구분되고 재사용 불가한 트리거를 생성하는 트리거 제너레이터를 설계한다.
학습 중 교차 트리거 테스트를 통해 재사용 불가를 강제한다.
MNIST, CIFAR-10, GTSRB에서 접근법을 평가하고 최첨단 방어에 대해 평가한다.
간단한 이미지 정규화 및 네트워크 검사 기법에 대한 강건성을 평가한다.

제안 방법

입력 x를 트리거 t = g(x)로 매핑하는 인코더-디코더 트리거 제너레이터 g를 사용한다.
다양성 손실 Ldiv를 통해 포화 상태를 피하고 입력 간 구별 가능한 트리거를 보장하여 트리거 다양성을 강화한다.
학습 중 트리거의 재사용 불가를 보장하기 위해 교차 트리거 테스트를 도입한다.
Ltotal = Lcla + λdiv Ldiv라는 결합 목표로 분류와 다양성 목표를 결합하여 학습한다.
학습 및 평가 중 세 가지 실행 모드(정상, 공격(입력별 트리거로 오염), 교차 트리거(다른 입력의 트리거로 오염))로 동작한다.
MNIST, CIFAR-10, GTSRB에서 Neural Cleanse, Fine-Pruning, STRIP, Mode Connectivity와 같은 최첨단 방어에 대해 평가한다.

실험 결과

연구 질문

RQ1입력에 따라 이미지별로 달라지도록 백도어 트리거를 입력 인식형으로 만들면 오염된 데이터에서의 공격 효과를 보존할 수 있는가?
RQ2다양성 강화 트리거 제너레이터가 비재사용적이고 입력 특이적인 트리거를 생성하여 표준 백도어 방어를 회피하는가?
RQ3제안된 교차 트리거 테스트가 백도어 재사용 불가 및 탐지기 탐지 가능성에 어떤 영향을 미치는가?
RQ4입력 인식형 백도어는 일반적인 이미지 정규화 및 눈에 보이는 네트워크 검사 기법에 대해 강건한가?
RQ5단일 표적과 다중 표적(all-to-all) 시나리오에서 공격 성능과 은폐성은 어떤가?

주요 결과

입력 인식형 백도어는 MNIST, CIFAR-10, GTSRB 전반에서 오염된 데이터에 대해 거의 100%의 공격 성공률을 달성하면서도 깨끗한 정확도를 유지한다.
교차 트리거 정확도는 88.16%에서 96.80%까지로, 트리거가 잘못된 입력에 일반화되지 않음을 나타낸다.
표준 평가 설정에서 Neural Cleanse, Fine-Pruning, Mode Connectivity를 포함한 주요 방어를 우회한다.
배포 시 STRIP 유사 테스트는 컨텐츠 변경으로 비활성화되어 백도어를 신뢰할 수 없게 만들며, 깨끗한 모델과 유사한 높은 엔트로피를 생성한다.
백도어는 단순한 이미지 규칙화에도 강건하고 GradCam 검사하에서도 은밀하게 남아 전통적 고정 트리거 백도어와 달리 은닉적이다.
All-to-all 공격(다중 표적)도 강력한 성능을 유지하지만 단일 표적에 비해 공격 정확도가 약간 감소한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.