[논문 리뷰] STRIP: A Defence Against Trojan Attacks on Deep Neural Networks
STRIP은 각 입력을 섞어 예측의 엔트로피를 측정함으로써 런타임에 트로이던 입력을 감지합니다; 엔트로피가 낮으면 트로이던 입력임을 나타내며, MNIST, CIFAR10, GTSRB에서 모델-독립적 백도어 탐지를 강력한 경험적 결과와 함께 가능하게 합니다.
A recent trojan attack on deep neural network (DNN) models is one insidious variant of data poisoning attacks. Trojan attacks exploit an effective backdoor created in a DNN model by leveraging the difficulty in interpretability of the learned model to misclassify any inputs signed with the attacker's chosen trojan trigger. Since the trojan trigger is a secret guarded and exploited by the attacker, detecting such trojan inputs is a challenge, especially at run-time when models are in active operation. This work builds STRong Intentional Perturbation (STRIP) based run-time trojan attack detection system and focuses on vision system. We intentionally perturb the incoming input, for instance by superimposing various image patterns, and observe the randomness of predicted classes for perturbed inputs from a given deployed model---malicious or benign. A low entropy in predicted classes violates the input-dependence property of a benign model and implies the presence of a malicious input---a characteristic of a trojaned input. The high efficacy of our method is validated through case studies on three popular and contrasting datasets: MNIST, CIFAR10 and GTSRB. We achieve an overall false acceptance rate (FAR) of less than 1%, given a preset false rejection rate (FRR) of 1%, for different types of triggers. Using CIFAR10 and GTSRB, we have empirically achieved result of 0% for both FRR and FAR. We have also evaluated STRIP robustness against a number of trojan attack variants and adaptive attacks.
연구 동기 및 목표
- 배포된 DNN 모델에 입력에 독립적인 트로이던 트리거를 가능하게 하는 백도어가 포함되어 있는지 식별한다.
- 블랙박스 모델 액세스로 작동하는 런타임, 아키텍처-독립적 탐지기를 개발한다.
- 다양한 트리거 크기와 여러 트로이 델 변형에 대한 강건성을 입증한다.
- 거짓 수용(FAR) 및 거짓 거절(FRR) 비율 측면의 성능을 정량화하고 런타임 오버헤드를 분석한다.
제안 방법
- 각 입력 x에 대해 x와 임의의 테스트 이미지를 겹쳐 N개의 섭동된 복제 x^p_i를 생성하여 섭동한다.
- 모든 섭동된 복제와 원래의 입력을 배포된 DNN에 주입하고 예측된 클래스 분포를 수집한다.
- 각 섭동 입력의 예측에 대해 Shannon 엔트로피를 계산하고, 이를 입력의 무작위성 지표로서 H(엔트로피의 정규화 합계)로 집계한다.
- 섭동하에서도 모델 출력의 입력 독립성을 나타내는 미리 정의된 탐지 경계선 이하로 H가 떨어지면 해당 입력을 트로진으로 선언한다.
- 공격자가 학습 및 아키텍처를 완전히 제어하는 위협 모델을 사용하되, 방어자는 트로진 샘플이 없는 검증 집합만 보유한다.
- 검출 지표로 FRR과 FAR를 사용하여 성능을 평가하고, N과 탐지 경계가 이들 비율에 어떤 영향을 미치는지 분석한다.
- 기본 추론 시간과 비교하여 N을 변화시키면서 런타임 오버헤드를 평가한다.
실험 결과
연구 질문
- RQ1STRIP가 런타임의 블랙박스 설정에서 트로진 입력을 benign 입력과 신뢰성 있게 구분할 수 있는가?
- RQ2STRIP 탐지기가 아키텍처 독립적이며 기존 배치와 호환 가능한가?
- RQ3STRIP가 서로 다른 트리거 유형, 크기 및 공격자 적응에 대해 얼마나 강건한가?
- RQ4탐지 성능의 트레이드오프(FRR vs FAR) 및 런타임 영향은 어떠한가?
주요 결과
- STRIP은 설정된 FRR 1%에서 다양한 트리거와 데이터셋에 대해 전체 FAR를 1% 미만으로 달성한다.
- 다수의 실험에서, 적절한 조건이 충족될 때 CIFAR10과 GTSRB에 대해 FAR 0% 및 FRR 0%가 달성된다.
- 평가 전반에 걸쳐 이 방법은 Hello Kitty 스타일 예시에서 사용된 것들을 포함한 큰 입력-독립 트리거에도 여전히 효과적이다.
- N=10 섭동에서 탐지 시간 오버헤드는 약 6.125 ms로, 기본 추론 4.63 ms 대비 증가하며 병렬 처리로 더 줄일 수 있다.
- 엔트로피 기반 탐지 경계는 악성 입력 엔트로피 분포를 기반으로 원하는 FRR/FAR 균형을 맞추도록 선택될 수 있다.
- STRIP는 여러 트로잔 변형과 하나의 적응 공격(엔트로피 조작)에 대해 강건함을 보여준다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.