Skip to main content
QUICK REVIEW

[논문 리뷰] Reflection Backdoor: A Natural Backdoor Attack on Deep Neural Networks

Yunfei Liu, Xingjun Ma|ArXiv.org|2020. 07. 05.
Adversarial Robustness in Machine Learning참고 문헌 69인용 수 38
한 줄 요약

논문은 Refool을 소개한다, 자연 반사 현상을 트리거로 사용하여 DNN에 백도어를 심는 은밀한 백도어 공격으로, 데이터 오염을 최소화하고 방어에 대한 강한 저항력을 달성하며 높은 공격 성공을 기록한다.

ABSTRACT

Recent studies have shown that DNNs can be compromised by backdoor attacks crafted at training time. A backdoor attack installs a backdoor into the victim model by injecting a backdoor pattern into a small proportion of the training data. At test time, the victim model behaves normally on clean test data, yet consistently predicts a specific (likely incorrect) target class whenever the backdoor pattern is present in a test example. While existing backdoor attacks are effective, they are not stealthy. The modifications made on training data or labels are often suspicious and can be easily detected by simple data filtering or human inspection. In this paper, we present a new type of backdoor attack inspired by an important natural phenomenon: reflection. Using mathematical modeling of physical reflection models, we propose reflection backdoor (Refool) to plant reflections as backdoor into a victim model. We demonstrate on 3 computer vision tasks and 5 datasets that, Refool can attack state-of-the-art DNNs with high success rate, and is resistant to state-of-the-art backdoor defenses.

연구 동기 및 목표

  • 표준 데이터 필터링으로 탐지되기 어려운 은밀한 백도어 공격의 연구 동기를 제시한다.
  • 은밀성 및 현실감을 높이기 위한 자연 반사 현상을 기반으로 한 백도어 트리거를 제안한다.
  • 작은 오염률과 반사 트리거를 사용해 여러 데이터셋과 모델에서 높은 공격 성공을 달성할 수 있음을 Demonstrate한다.
  • 반사 기반 백도어가 기존의 백도어 방법에 비해 기존 방어에 더 강한 저항성을 보인다는 것을 보여준다.

제안 방법

  • 물리적 반사 과정으로 백도어 트리거를 모델링한다: x_adv = x + x_R ⊗ k, 여기서 k는 반사 커널이다.
  • 세 가지 반사 체계(In-plane, out-of-focus blur, ghost reflections)와 대응하는 커널 형태를 정의한다.
  • wild candidate set R_cand에서 효과적인 반사를 선택하고 R_adv를 형성하기 위한 반복적인 적대적 반사 이미지 선택 알고리즘을 개발한다.
  • 클린 레이블 설정하에서 대상 클래스의 학습 데이터에 선택된 반사 패턴을 주입하고 오염된 모델 f_adv를 학습한다.
  • 추론 시 테스트 입력에 R_adv의 반사를 적용하여 타깃 클래스 y_adv를 유도한다.
  • Attack의 효과를 데이터셋/모델 전반에서 평가하고 Badnets, CL, SIG와 비교한다.

실험 결과

연구 질문

  • RQ1자연 반사 패턴이 방어로부터 탐지하기 어려운 은밀한 백도어 트리거로 작용할 수 있는가?
  • RQ2반사 기반 트리거를 사용할 때 높은 공격 성공을 달성하기 위해 필요한 최소 데이터 오염률은 어떻게 되는가?
  • RQ3반사 기반 백도어가 데이터세트에 의존적인 트리거 설계 없이 데이터세트 간에 전달되는가?
  • RQ4반사 기반 백도어는 최첨단 백도어 방어(미세 조정, 가지치기, Neural Cleanse)에 대해 어떤 저항성을 보이는가?

주요 결과

  • Refool은 5개의 데이터셋과 여러 모델에서 3.27% 미만의 주입률로 75% 이상의 공격 성공률을 달성한다.
  • 클린 테스트 정확도는 평균적으로 3% 미만으로 감소하여 강한 은밀성을 시사한다.
  • 반사 기반 트리거는 CL 및 SIG 기준에 비해 미세 조정과 신경 가지치기 방어에 더 강한 저항성을 보인다.
  • 적대적 반사 이미지 선택은 약 9회의 반복 내에 효과적인 트리거로 수렴한다.
  • 다른 반사 유형(types I-III)과 혼합은 입력에 대한 변형을 중간 수준으로 유지하면서 공격 강도를 향상시킨다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.