[논문 리뷰] Backdoor Embedding in Convolutional Neural Network Models via Invisible Perturbation
본 논문은 이미지 분류에서 CNN에 대해 두 가지 은밀한 백도어 주입 방법을 제시하여, 최소한의 정확도 손실과 낮은 오염 비율로 타깃 대상의 잘못 분류를 가능하게 한다.
Deep learning models have consistently outperformed traditional machine learning models in various classification tasks, including image classification. As such, they have become increasingly prevalent in many real world applications including those where security is of great concern. Such popularity, however, may attract attackers to exploit the vulnerabilities of the deployed deep learning models and launch attacks against security-sensitive applications. In this paper, we focus on a specific type of data poisoning attack, which we refer to as a {\em backdoor injection attack}. The main goal of the adversary performing such attack is to generate and inject a backdoor into a deep learning model that can be triggered to recognize certain embedded patterns with a target label of the attacker's choice. Additionally, a backdoor injection attack should occur in a stealthy manner, without undermining the efficacy of the victim model. Specifically, we propose two approaches for generating a backdoor that is hardly perceptible yet effective in poisoning the model. We consider two attack settings, with backdoor injection carried out either before model training or during model updating. We carry out extensive experimental evaluations under various assumptions on the adversary model, and demonstrate that such attacks can be effective and achieve a high attack success rate (above $90\%$) at a small cost of model accuracy loss (below $1\%$) with a small injection rate (around $1\%$), even under the weakest assumption wherein the adversary has no knowledge either of the original training data or the classifier model.
연구 동기 및 목표
- CNN 기반 이미지 분류에서 백도어 주입 공격 연구를 촉진하고, 보안에 민감한 응용 분야에서 보안 위험을 평가한다.
- 시각적으로 인지할 수 없고 효과적인 두 가지 백도어 생성 전략을 제안한다.
- 다양한 공격자 지식 및 능력 시나리오에서 공격 가능성을 평가한다.
- 전체 모델 성능을 유지하면서도 낮은 오염 비율로도 높은 공격 성공을 달성할 수 있음을 보여준다.
제안 방법
- 패턴화된 정적 교란 마스크와 표적 적응 교란 마스크의 두 가지 백도어 생성 전략을 도입한다.
- 주입 데이터셋 D_A를 학습 세트에 추가하여 백도어 주입을 데이터 오염으로 형식화한다.
- 오염된 데이터를 이용한 미니 배치 경사하강 학습을 사용하여 분류 정확도와 백도어 성공 모두를 최대화한다.
- 공격은 두 가지 설정에서 수행될 수 있다: 학습 이전 백도어 주입(BIB)과 업데이트 중 백도어 주입(BID).
- 적응 교란은 l_infinity 제약 하에서 샘플을 타깃 클래스의 결정 경계로 밀어넣기 위해 DeepFool에서 영감을 받은 반복적 방법을 사용한다.
- 오염 목표에 대한 수학적 정식화와 백도어 효과의 조건을 제시한다.
실험 결과
연구 질문
- RQ1시각적으로 은밀한 백도어 교란이 CNN에서 타깃 잘못 분류를 얼마나 효과적으로 유발하는가?
- RQ2다양한 공격자 지식(FK, PKD, PKM, MK)과 능력 하에서 백도어 공격의 한계는 무엇인가?
- RQ3높은 공격 성공을 유지하면서 전체 테스트 정확도에 최소한의 영향을 주고 백도어를 주입할 수 있는가?
- RQ4두 가지 백도어 생성 전략은 은밀성 및 효과성 측면에서 어떻게 비교되는가?
주요 결과
- 여러 시나리오에서 공격 성공률이 약 1%의 오염률로도 90%를 초과한다.
- 테스트 조건에서 분류 정확도 손실은 1% 미만으로 유지된다.
- 백도어 교란은 시각적으로 인지할 수 없고 기계식 탐지기에 의해 탐지하기 어렵다.
- 패턴화된 정적 방식과 표적 적응 방식의 두 가지 백도어 생성 접근법은 은밀한 백도어 생성을 위한 유연한 선택지를 제공한다.
- 원 데이터나 모델에 대한 지식이 없는 약한 적대를 포함한 다양한 공격자 모델에서 공격 효과가 입증된다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.