[논문 리뷰] MagNet: a Two-Pronged Defense against Adversarial Examples
MagNet은 대상 분류기를 수정하지 않고 감지기로 적대적 입력을 거부하고 재구성기로 적대적 예제를 데이터 매니폴드 toward 하는 방식으로 신경망을 방어하며, 그레이박 공격에 대응하기 위한 다양성을 갖춘다.
Deep learning has shown promising results on hard perceptual problems in recent years. However, deep learning systems are found to be vulnerable to small adversarial perturbations that are nearly imperceptible to human. Such specially crafted perturbations cause deep learning systems to output incorrect decisions, with potentially disastrous consequences. These vulnerabilities hinder the deployment of deep learning systems where safety or security is important. Attempts to secure deep learning systems either target specific attacks or have been shown to be ineffective. In this paper, we propose MagNet, a framework for defending neural network classifiers against adversarial examples. MagNet does not modify the protected classifier or know the process for generating adversarial examples. MagNet includes one or more separate detector networks and a reformer network. Different from previous work, MagNet learns to differentiate between normal and adversarial examples by approximating the manifold of normal examples. Since it does not rely on any process for generating adversarial examples, it has substantial generalization power. Moreover, MagNet reconstructs adversarial examples by moving them towards the manifold, which is effective for helping classify adversarial examples with small perturbation correctly. We discuss the intrinsic difficulty in defending against whitebox attack and propose a mechanism to defend against graybox attack. Inspired by the use of randomness in cryptography, we propose to use diversity to strengthen MagNet. We show empirically that MagNet is effective against most advanced state-of-the-art attacks in blackbox and graybox scenarios while keeping false positive rate on normal examples very low.
연구 동기 및 목표
- 적대적 예제와 방어에 대한 평가 지표를 정의한다.
- 대상 분류기를 수정하지 않고 공격 과정과 독립적인 방어 프레임워크를 제안한다.
- 데이터 매니폴드 학습과 오토인코더를 기반으로 한 탐지기를 도입하여 적대적 입력을 거부하거나 재구성한다.
- 다양성을 활용하여 그레이박 공격을 줄이고 적응형 공격자에 대한 강건성을 향상시킨다.
제안 방법
- 오토인코더 재구성 오차를 이용하여 데이터 매니폴드까지의 거리를 추정하는 하나 이상의 탐지기를 설치한다.
- 원래 입력과 오토인코더 재구성 입력 간의 분포 차이(제이슨-샤넌 발산)를 기반으로 한 두 번째 탐지기를 사용한다.
- 적대적 예제를 매니폴드 방향으로 매핑하여 올바르게 분류되도록 재구성기(오토인코더)를 학습시킨다.
- 런타임에 여러 다양성 있는 오토인코더 중 무작위로 선택하는 방식으로 그레이박 위협 모델 하에 방어한다.
- 훈련에 적대적 예제에 의존하지 않으며 임의의 생성 과정에 대해 방어한다.
실험 결과
연구 질문
- RQ1대상 분류기를 수정하지 않는 방어가 여러 공격 방식에 걸쳐 적대적 입력을 강건하게 탐지하고 재구성할 수 있는가?
- RQ2데이터 매니폴드 기반 탐지(재구성 오류)와 분류기 출력 차이의 보완적 탐지로서의 효과는 어느 정도인가?
- RQ3오토인코더 기반 방어에서의 다양성이 그레이박 공격에 대한 회복력을 향상시키며 정상 입력에 대한 위양성 증가 없이 가능한가?
주요 결과
- 탐지-재구성기 프레임워크는 보호된 분류기를 수정하지 않으면서도 다수의 알려진 공격에 대한 강건성을 향상시킨다.
- 재구성기(오토인코더)는 적대적 예제를 정상 데이터 매니폴드 방향으로 이동시켜 올바른 분류를 돕는다.
- 두 탐지기(재구성 오류 기반과 확률 차이 기반)가 공격 유형 전반에서 서로를 보완한다.
- 다양성 있는 방어(여러 오토인코더 중 무작위 선택)가 그레이박 위협에 대한 회복력을 강화한다.
- 방어는 그레이박 설정에서도 효과적이며 공격자가 범용적 적대적 입력을 제작하기 어렵게 만든다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.