[논문 리뷰] Targeted Backdoor Attacks on Deep Learning Systems Using Data Poisoning
이 백도어 중독 공격은 블랙박스 위협 모델에서 심층학습 시스템에 숨겨진 백도어를 심고, 몇 개의 중독 샘플만으로도 높은 공격 성공률을 가능하게 하며, 물리적으로 구현 가능한 백도어까지 가능하게 한다.
Deep learning models have achieved high performance on many tasks, and thus have been applied to many security-critical scenarios. For example, deep learning-based face recognition systems have been used to authenticate users to access many security-sensitive applications like payment apps. Such usages of deep learning systems provide the adversaries with sufficient incentives to perform attacks against these systems for their adversarial purposes. In this work, we consider a new type of attacks, called backdoor attacks, where the attacker's goal is to create a backdoor into a learning-based authentication system, so that he can easily circumvent the system by leveraging the backdoor. Specifically, the adversary aims at creating backdoor instances, so that the victim learning system will be misled to classify the backdoor instances as a target label specified by the adversary. In particular, we study backdoor poisoning attacks, which achieve backdoor attacks using poisoning strategies. Different from all existing work, our studied poisoning strategies can apply under a very weak threat model: (1) the adversary has no knowledge of the model and the training set used by the victim system; (2) the attacker is allowed to inject only a small amount of poisoning samples; (3) the backdoor key is hard to notice even by human beings to achieve stealthiness. We conduct evaluation to demonstrate that a backdoor adversary can inject only around 50 poisoning samples, while achieving an attack success rate of above 90%. We are also the first work to show that a data poisoning attack can create physically implementable backdoors without touching the training process. Our work demonstrates that backdoor poisoning attacks pose real threats to a learning system, and thus highlights the importance of further investigation and proposing defense strategies against them.
연구 동기 및 목표
- 얼굴 인식과 같이 보안에 중요한 DL 시스템에서 백도어 공격의 보안 위험성을 제시한다.
- 약하고 현실적인 위협 모델 하에서 최소한의 오염 샘플만으로도 백도어 중독 전략을 제안한다.
- 입력 인스턴스-키와 패턴-키라는 두 가지 넓은 백도어 전략 클래스를 소개하고 실용적인 변형을 구체화한다.
- 물리적 세계 적용 가능성 및 공격의 강건성을 포함하여 백도어 중독의 실행 가능성과 은밀성을 입증한다.
- 실세계 배포에서 은밀한 데이터 중독 백도어에 대한 방어의 필요성을 강조한다.
제안 방법
- 백도어 중독을 두 부분으로 구성된 적대적 프로세스로 정의한다: 중독 샘플 생성을 하고 keyΣ를 통해 백도어 인스턴스를 생성한다.
- 두 가지 전략 클래스를 도입한다: 입력 인스턴스-키(백도어 키가 단일 입력 인스턴스)와 패턴-키(백도어 키가 패턴이다).
- 입력 인스턴스-키의 경우, Σ(k)를 사용해 단일 키 예시의 백도어 유사 변형을 생성하고 목표 레이블로 오염 샘플을 주입한다.
- 패턴-키의 경우, 입력에 패턴을 삽입해 백도어 인스턴스를 생성하는 블렌드드 인젝션(Blended Injection), 악세서리 인젝션(Accessory Injection), 그리고 블렌드된 악세서리 인젝션(Blended Accessory Injection)의 세 가지 구현을 개발한다.
- 공격자가 모델 아키텍처나 훈련 데이터에 대한 지식이 없고, 소량의 중독 샘플을 주입하며, 순수한 성능을 보존하면서 높은 백도어 성공률을 목표로 하는 위협 모델을 형식화한다.
- 소수의 중독 샘플이 최신 얼굴 인식 시스템에서 높은 공격 성공률을 유도할 수 있음을 보여준다.
실험 결과
연구 질문
- RQ1훈련 데이터에 접근할 수 없는 블랙박스 위협 모델 하에서 백도어 중독이 효과적인 백도어를 만들 수 있는가?
- RQ2효과적인 입력 인스턴스-키 및 패턴-키 백도어에 필요한 최소 중독 샘플 수는 얼마인가?
- RQ3패턴-키 전략은 은밀성(패턴의 눈에 띄는 정도)과 공격 효과 사이의 균형을 어떻게 맞추는가?
- RQ4데이터 중독 전략으로 물리적으로 구현 가능한 백도어는 실현 가능한가?
- RQ5백도어 성공을 가능하게 하면서 순수한 모델 성능에는 어떤 영향을 미치는가?
주요 결과
- 대규모 학습 세트(~60만 샘플)에서 입력 인스턴스-키 전략을 사용할 때 공격자가 약 5개의 오염 샘플을 주입하여 백도어 인스턴스를 만들 수 있다.
- 패턴-키 백도어는 약 50개의 중독 샘플이 필요하여 공격 성공률이 90%를 넘는다.
- 백도어 인스턴스는 눈에 띄지 않게(은밀한 패턴) 만들 수 있어도 여전히 높은 공격 성공률을 제공한다.
- 제안된 패턴-키 전략은 물리적으로 구현 가능한 백도어를 가능하게 한다(예: 안경 같은 액세서리 또는 특정 패턴).
- 공격은 블랙박스 설정에서 작동하며 높은 순수 테스트 정확도를 유지할 수 있어 탐지가 어렵다.
- 연구는 패턴-키 공격의 두 가지 넓은 클래스와 세 가지 구체적 구현을 제시하여 실용적 가능성을 보여준다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.