[논문 리뷰] DeepSweep: An Evaluation Framework for Mitigating DNN Backdoor Attacks using Data Augmentation
DeepSweep는 데이터 증강을 활용하여 딥 뉴럴 네트워크 뒷통로 공격를 탐지하고 완화하기 위한 체계적인 프레임워크를 제안한다. 두 가지 별도의 증강 정책을 적용한다: 하나는 오염된 모델을 미세조정하기 위한 것이고, 다른 하나는 추론 시 입력을 전처리하기 위한 것이다. 71개의 함수를 포괄적인 평가를 통해 최적의 증강 정책을 식별하여, 여덟 가지 뒷통로 공격 유형에 대해 강력한 방어를 달성하면서 기존의 다섯 가지 방어 방법을 능가한다.
Public resources and services (e.g., datasets, training platforms, pre-trained models) have been widely adopted to ease the development of Deep Learning-based applications. However, if the third-party providers are untrusted, they can inject poisoned samples into the datasets or embed backdoors in those models. Such an integrity breach can cause severe consequences, especially in safety- and security-critical applications. Various backdoor attack techniques have been proposed for higher effectiveness and stealthiness. Unfortunately, existing defense solutions are not practical to thwart those attacks in a comprehensive way. In this paper, we investigate the effectiveness of data augmentation techniques in mitigating backdoor attacks and enhancing DL models' robustness. An evaluation framework is introduced to achieve this goal. Specifically, we consider a unified defense solution, which (1) adopts a data augmentation policy to fine-tune the infected model and eliminate the effects of the embedded backdoor; (2) uses another augmentation policy to preprocess input samples and invalidate the triggers during inference. We propose a systematic approach to discover the optimal policies for defending against different backdoor attacks by comprehensively evaluating 71 state-of-the-art data augmentation functions. Extensive experiments show that our identified policy can effectively mitigate eight different kinds of backdoor attacks and outperform five existing defense methods. We envision this framework can be a good benchmark tool to advance future DNN backdoor studies.
연구 동기 및 목표
- 신뢰할 수 없는 제3자 데이터셋 또는 서비스를 사용하여 훈련된 딥 러닝 모델에서 증가하는 뒷통로 공격의 위협을 해결하기 위해.
- 복잡하거나 의미적 트리거를 가진 공격 유형에 대해 일반화하지 못하는 기존 방어 방법의 한계를 극복하기 위해.
- 다양한 뒷통로 공격를 완화하기 위한 효과적인 데이터 증강 정책을 식별할 수 있는 체계적이고 자동화된 평가 프레임워크를 개발하기 위해.
제안 방법
- 프레임워크는 두 단계 방어를 활용한다: 첫째, 뒷통로 효과를 중화시키기 위해 데이터 증강 정책을 사용해 오염된 모델을 미세조정한다.
- 둘째, 추론 시 다른 증강 정책을 적용하여 입력 샘플을 변형하고 트리거 패턴을 무효화한다.
- 각 공격 유형에 최적의 정책 조합을 발견하기 위해 최신의 71개의 데이터 증강 함수를 체계적으로 평가한다.
- 증강 연산과 하이퍼파라미터의 검색 공간을 사용하여 검증 세트에서 각 공격에 대해 가장 높은 성능을 보이는 정책을 식별한다.
- 정책 발견과 평가를 안내하기 위해 여덟 가지 대표적인 뒷통로 공격 유형을 포함한 정제된 공격 데이터베이스를 활용한다.
- 최종 솔루션은 검증되지 않은 공격 인스턴스에서 일반화 능력과 강건성을 평가하기 위해 검증한다.
실험 결과
연구 질문
- RQ1데이터 증강을 체계적으로 활용하여 다양한 DNN 뒷통로 공격에 대해 효과적이고 일반화 가능한 방어를 식별할 수 있는가?
- RQ2어떤 특정 조합의 데이터 증강 함수가 여러 공격 유형에 걸쳐 공격 성공률를 감소시키면서도 모델 정확도를 유지하는 데 효과적인가?
- RQ3다양한 뒷통로 공격 변종에 걸쳐 기존의 방어 방법과 비교했을 때 제안된 프레임워크의 성능과 강건성은 어떠한가?
- RQ4정책 검색 중에 사용되지 않은 새로운, 알려지지 않은 뒷통로 공격 패tern에 프레임워크가 일반화될 수 있는가?
- RQ5의미적 또는 보이지 않는 트리거를 가진 근본적으로 다른 공격 유형에 직면했을 때 프레임워크의 한계는 무엇인가?
주요 결과
- DeepSweep 프레임워크는 패턴 기반 및 복잡한 트리거 변형을 포함한 여덟 가지의 다른 뒷통로 공격을 성공적으로 완화한다.
- 식별된 방어 정책은 평균 공격 성공률(ASR)을 5.3%로 감소시켰으며, 기준 모델의 95.4%와 비교하여 뚜렷한 개선을 보였다.
- 청결한 입력에 대해 평균 테스트 정확도(ACC)는 83.1%를 기록했으며, 강건성과 사용성 측면에서 기존의 방어 방법보다 뚜렷이 뛰어났다.
- 다섯 가지 최신 기술 방어 방법과 비교했을 때, DeepSweep는 ASR 감소 능력에서 뛰어난 성능을 보이며 더 높은 모델 정확도를 유지했다.
- 프레임워크는 도메인 특화된 텍스트 증강 기법을 사용함으로써 NLP와 같은 다른 도메인으로도 확장 가능하다.
- 프레임워크는 향후 연구를 위한 벤치마크로 활용하고 새로운 공격 및 증강 함수의 지속적인 통합을 지원하기 위해 오픈소스로 공개되었다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.