QUICK REVIEW

[논문 리뷰] Backdoor Attack in the Physical World

Yiming Li, Tongqing Zhai|arXiv (Cornell University)|2021. 04. 06.

Adversarial Robustness in Machine Learning참고 문헌 16인용 수 36

한 줄 요약

논문은 정적 트리거를 가진 백도어 공격이 물리적 세계에서 학습 시점과 다른 트리거를 테스트할 때 취약하다는 것을 보여주고, 이러한 변환에 강건한 변환 기반 방어와 향상된 공격을 제안하며 CIFAR-10 및 물리적 세계 시演으로 평가한다.

ABSTRACT

Backdoor attack intends to inject hidden backdoor into the deep neural networks (DNNs), such that the prediction of infected models will be maliciously changed if the hidden backdoor is activated by the attacker-defined trigger. Currently, most existing backdoor attacks adopted the setting of static trigger, $i.e.,$ triggers across the training and testing images follow the same appearance and are located in the same area. In this paper, we revisit this attack paradigm by analyzing trigger characteristics. We demonstrate that this attack paradigm is vulnerable when the trigger in testing images is not consistent with the one used for training. As such, those attacks are far less effective in the physical world, where the location and appearance of the trigger in the digitized image may be different from that of the one used for training. Moreover, we also discuss how to alleviate such vulnerability. We hope that this work could inspire more explorations on backdoor properties, to help the design of more advanced backdoor attack and defense methods.

연구 동기 및 목표

정적-트리거 백도어 공격이 테스트 시 위치나 외관이 학습 시 트리거와 다를 때도 여전히 효과적인지 조사한다.
이미지 변환에 대한 기존 정적 트리거 백도어 공격의 취약성을 평가한다.
모델이나 데이터 변경 없이 이러한 공격을 완화하기 위한 변환 기반 방어를 제안한다.
일반적인 이미지 변환에서도 효과를 유지하는 향상된 백도어 공격을 제안한다.
향상된 공격과 물리적 세계 백도어 시나리오 사이의 연결을 시연한다.

제안 방법

모델 및 데이터 설정: CIFAR-10에서 VGG-19와 ResNet-34를 사용하고 3x3 블랙-그레이 트리거를 사용하는 BadNets를 적용한다.
트리거를 위치와 외관이라는 두 가지 독립 속성(최소 커버 박스 및 트리거 패턴)으로 특징지어진다.
추론 시 트리거의 위치를 약간 이동시키거나 외관을 변화시켰을 때 공격 성공률(ASR)을 평가한다.
테스트 이미지를 변환(예: 뒤집기, 스케일링)으로 전처리하는 변환 기반 방어를 제안한다.
매개변수화된 변환 가족 Θ를 사용하여 변환된 포이즌 이미지 세트를 통해 훈련하는 방식으로 향상된 공격을 개발하고, 전체 변환 공간을 근사하기 위한 샘플링 접근법을 사용한다.
향상된 공격이 디지털화로 인해 변환이 유발되는 물리적 세계 설정에서 어떻게 관련되고 성공할 수 있는지 보여준다.

실험 결과

연구 질문

RQ1테스트 시 트리거가 학습 시 트리거와 위치나 외관이 다를 때 정적 트리거 백도어 공격은 여전히 효과적인가?
RQ2모델이나 데이터에 접근하지 않고도 간단한 변환 기반 전처리 방어가 백도어의 효과를 감소시킬 수 있는가?
RQ3일반적인 변환(물리적 세계에서 마주하는 변환 포함)에서도 견고하도록 백도어 공격을 향상시킬 수 있는가?
RQ4향상된 공격은 변환 기반 방어 하에서 어떻게 수행되며 물리적 세계의 효과로 번역되는가?

주요 결과

정적 트리거 공격은 트리거의 위치에 민감하다; 아주 약간의 위치 이동(몇 픽셀 차이)만으로 ASR이 거의 100%에서 50% 이하로 떨어질 수 있다.
트리거의 외관을 바꾸면(심지어 소폭 변경해도) ASR이 크게 저하되어 외관 변화에 대한 취약성을 나타낸다.
ShrinkPad4 방어는 검토된 공격과 모델 전반에 걸쳐 ASR을 90% 이상 감소시키고, Flip은 일부 공격에 효과적으로 방어하며, Auto-Encoder는 일반적으로 ASR 감소에는 덜 효과적이고 클린 정확도는 보존하는 경향이다.
향상된 백도어 공격(훈련 시 무작위 변환을 사용하는 경우)은 변환 기반 방어 아래에서도 높은 ASR을 유지하며, 대부분의 테스트 구성에서 표준 공격보다 더 우수하다.
물리적 세계 테스트에서 BadNets+(향상된 공격)는 실제 세계 촬영에서도 성공하는 반면 표준 BadNets는 실패하여 향상과 물리적 백도어 간의 실용적 연결고리를 보여준다.
이 연구는 변환을 통한 방어가 물리적 세계의 트리거 변동에 대한 강건성과 연결되고, 더 강력한 공격/방어 방법에 영감을 줄 가능성을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.