QUICK REVIEW

[논문 리뷰] NNoculation: Broad Spectrum and Targeted Treatment of Backdoored DNNs.

Akshaj Kumar Veldanda, Kang Liu|arXiv (Cornell University)|2020. 02. 19.

Adversarial Robustness in Machine Learning참고 문헌 25인용 수 30

한 줄 요약

NNoculation은 백도어가 삽입된 딥 네ural 네트워크를 대비하기 위한 이중 단계 방어 기법으로, 사전 배포 단계에서 광범위한 스펙트럼의 입력 변형을 적용해 백도어 영향을 줄이고, 배포 후에는 모델 간 이견을 이용해 백도어가 삽입된 입력을 탐지하고 격리한다. 이 방식은 깨끗한 입력에서 트리거가 삽입된 이미지를 생성하기 위해 CycleGAN을 훈련시키며, 이를 통해 모델을 미세조정함으로써 NeuralCleanse와 ABS보다 뛰어난 강건성을 확보한다. 특히 공격자가 트리거의 형태, 크기, 위치에 대해 제약 조건을 갖지 않는 경우에도 효과를 발휘한다.

ABSTRACT

This paper proposes a novel two-stage defense (NNoculation) against backdoored neural networks (BadNets) that, unlike existing defenses, makes minimal assumptions on the shape, size and location of backdoor triggers and BadNet's functioning. In the pre-deployment stage, NNoculation retrains the network using broad-spectrum random perturbations of inputs drawn from a clean validation set to partially reduce the adversarial impact of a backdoor. In the post-deployment stage, NNoculation detects and quarantines backdoored test inputs by recording disagreements between the original and pre-deployment patched networks. A CycleGAN is then trained to learn transformations between clean validation inputs and quarantined inputs; i.e., it learns to add triggers to clean validation images. This transformed set of backdoored validation images along with their correct labels is used to further retrain the BadNet, yielding our final defense. NNoculation outperforms state-of-the-art defenses NeuralCleanse and Artificial Brain Simulation (ABS) that we show are ineffective when their restrictive assumptions are circumvented by the attacker.

연구 동기 및 목표

백도어 신경망에서 트리거의 형태, 크기, 위치에 대해 제한적인 가정에 의존하는 기존 방어 기법의 한계를 해결한다.
NeuralCleanse와 Artificial Brain Simulation와 같은 최신 기법이 그 가정을 위반할 경우에도 효과적인 백도어 방어 메커니즘을 개발한다.
트리거 특성에 대한 사전 지식 없이도 백도어가 삽입된 입력을 강건하게 탐지하고 완화할 수 있도록 한다.
아키텍처나 트리거 특성에 대한 가정에 의존하는 것을 최소화해 다양한 백도어 공격 시나리오에 일반화할 수 있도록 한다.

제안 방법

사전 배포 단계에서, 깨끗한 검증 입력에 무작위 변형을 적용하여 모델이 잠재적 백도어 트리거에 민감도를 낮춘다.
배포 후 단계에서, 원본 모델과 사전 배포된 패치된 모델 간의 이견을 분석하여 백도어가 삽입된 것으로 의심되는 입력을 식별한다.
Clean한 검증 이미지에서 격리된(의심스러운 백도어가 삽입된) 이미지로의 매핑을 학습하기 위해 CycleGAN을 훈련시킨다. 이는 깨끗한 입력에 트리거를 삽입하는 데 효과적으로 기여한다.
CycleGAN이 생성한 트리거가 삽입된 이미지(정확한 레이블과 함께)를 사용해 원래의 백도어가 삽입된 네트워크를 미세조정함으로써 최종 강건한 모델을 도출한다.
이 방어 기법은 트리거 패tern에 대한 사전 지식 없이도 모델 이견과 생성 모델링을 활용해 백도어를 식별하고 중화한다.
이 접근법은 트리거 특성에 대해 무관하므로, 복잡하거나 변형되거나 적응적으로 제작된 트리거가 존재하더라도 효과를 발휘한다.

실험 결과

연구 질문

RQ1백도어 트리거가 형태, 크기, 위치에서 다양할 경우, 이전 방어 기법이 내포한 가정을 초월해 효과적인 방어 기법을 개발할 수 있는가?
RQ2광범위한 스펙트럼의 입력 변형이 사전 배포 단계의 재훈련 과정에서 백도어의 영향을 얼마나 줄일 수 있는가?
RQ3트리거 특성에 대한 사전 지식 없이도 원본 모델과 재훈련된 모델 간의 이견이 백도어가 삽입된 입력을 신뢰성 있게 탐지할 수 있는가?
RQ4격리된 입력을 기반으로 학습함으로써 CycleGAN이 깨끗한 이미지에서 트리거 패턴을 효과적으로 합성할 수 있는가? 이를 통해 효과적인 미세조정이 가능한가?
RQ5적응형 공격자가 NeuralCleanse와 ABS의 제약 조건을 우회할 경우, NNoculation은 이들 기법보다 얼마나 더 강건한가?

주요 결과

공격자가 이전 기법의 가정을 위반할 경우, 여러 벤치마크 데이터셋에서 NNoculation이 NeuralCleanse와 Artificial Brain Simulation를 모두 능가한다.
사전 배포 단계의 변형 적용 단계는 트리거의 형태를 알지 못하더라도 모델의 백도어에 대한 취약성을 크게 감소시킨다.
원본 모델과 패치된 모델 간의 이견은 사전 트리거 지식 없이도 높은 비율로 백도어가 삽입된 입력을 성공적으로 식별하며, 잔차 경고는 최소한으로 유지된다.
CycleGAN 기반 트리거 합성은 깨끗한 입력과 의미적으로 일관된 현실적인 트리거가 삽입된 이미지를 효과적으로 생성한다.
CycleGAN가 생성한 레이블이 부여된 백도어가 삽입된 검증 세트로 백도어가 삽입된 모델을 미세조정함으로써, 깨끗한 데이터에 대해 높은 정확도를 확보하고 백도어 공격에 강건한 최종 모델을 도출할 수 있다.
NNoculation은 작은, 비정형적이거나 미세한 패턴에 삽입된 트리거를 포함한 다양한 트리거 유형에 대해 강력한 성능를 유지한다. 이는 이전의 방어 기법이 이러한 조건에서 실패하는 것과 대비된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.