Skip to main content
QUICK REVIEW

[논문 리뷰] Rethinking the Trigger of Backdoor Attack

Yiming Li, Tongqing Zhai|arXiv (Cornell University)|2020. 04. 09.
Advanced Malware Detection Techniques참고 문헌 73인용 수 98
한 줄 요약

본 논문은 정적 트리거를 갖는 백도어 공격이 트리거 위치와 외관에 민감하다는 것을 보이고, 변환 기반 방어를 제안하며, 공격을 더 강건하게 만들고 물리적 상황에 적용 가능하도록 하는 변환 기반 향상을 도입한다.

ABSTRACT

Backdoor attack intends to inject hidden backdoor into the deep neural networks (DNNs), such that the prediction of the infected model will be maliciously changed if the hidden backdoor is activated by the attacker-defined trigger, while it performs well on benign samples. Currently, most of existing backdoor attacks adopted the setting of \emph{static} trigger, $i.e.,$ triggers across the training and testing images follow the same appearance and are located in the same area. In this paper, we revisit this attack paradigm by analyzing the characteristics of the static trigger. We demonstrate that such an attack paradigm is vulnerable when the trigger in testing images is not consistent with the one used for training. We further explore how to utilize this property for backdoor defense, and discuss how to alleviate such vulnerability of existing attacks.

연구 동기 및 목표

  • 백도어 트리거의 위치와 외관이 숨겨진 백도어의 활성화에 어떤 영향을 미치는지 조사한다.
  • 정적-트리거 백도어 공격이 공간적/외관 변화에 취약한지 평가한다.
  • 정적 백도어를 완화하기 위한 간단한 변환 기반 방어를 제안한다.
  • 트리거 변화에 대한 강건성을 향상시키기 위해 기존 백도어 공격에 변환 기반 향상을 제안한다.
  • 향상된 공격을 물리적 환경의 백도어 시나리오와 연결한다.

제안 방법

  • 트리거 S와 정상 이미지 x를 사용하여 백도어 스탬핑 과정을 x_pooled = (1-α)·x + α·x_trigger로 모델링한다.
  • 정상 샘플과 독성 샘플의 혼합으로 학습하여 정상 입력에 대해 높은 정확도와 트리거가 있는 입력을 목표 레이블로 오분류하는 것을 달성한다.
  • 트리거 특성을 위치와 외관으로 정의하고 ASR(공격 성공률)로 공격 성공을 정량화한다.
  • 정적 트리거의 경우 트리거 위치의 작은 이동이나 트리거 외관 변화가 ASR을 급격히 감소시킨다는 것을 시연한다.
  • 테스트 이미지를 미리 처리하여 트리거 활성화를 방해하는 변환 기반 방어 T를 제안한다(예: 뒤집기, 스케일링).
  • 훈련 중 무작위 변환을 샘플링하여 독성 이미지를 변환에 강건하도록 하는 변환-강건 향상을 도입한다.
  • 향상된 공격이 공간적 변환에서도 높은 ASR을 유지하며, 물리적 백도어 공격에 접근하는 방식을 관련지어 보인다.

실험 결과

연구 질문

  • RQ1정적 트리거를 가진 백도어 공격의 효과가 트리거 위치나 외관의 변경으로 감소될 수 있는가?
  • RQ2모델이나 데이터에 접근하지 않고도 변환 기반 전처리 방어가 정적-트리거 백도어를 완화할 수 있는가?
  • RQ3물리적 시나리오를 포함해 트리거 변화에 강건하도록 백도어 공격을 어떻게 강화할 수 있는가?

주요 결과

  • 트루 공격 성능(ASR)은 트리거 위치에 매우 민감하다; 트리거를 조금 이동(2–3 픽셀)만 해도 ASR이 거의 100%에서 50% 미만으로 떨어질 수 있다.
  • 트리거 외관의 변화(0이 아닌 픽셀 값)도 ASR을 저하시켜 트리거 외관 변화에 민감함을 시사한다.
  • 테스트 이미지에 적용된 간단한 공간 변환 방어(예: Flip, ShrinkPad)는 ASR을 크게 감소시키며, 특히 ShrinkPad-4는 많은 경우에서 ASR을 90% 이상 감소시킨다.
  • 무작위 변환 하에서 독성 이미지를 학습하는 향상된 백도어 공격은 변환 기반 방어에 대해 높은 ASR을 유지하며(일반적 공격보다 더 잘 수행하는 경우가 많다).
  • 향상된 공격은 촬영 시 다양한 거리/각도에서 트리거가 나타나는 물리적 공격 시나리오에서도 강건함을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.