[논문 리뷰] Stochastic Activation Pruning for Robust Adversarial Defense
tldr: SAP는 사전학습된 네트워크에 후처리 방어로 확률적 활성화 가지치기(stochastic activation pruning)를 적용하여 적대적 예제에 대한 강건성 및 보정(calibration)을 미세 조정 없이 향상시키고, 적대적 학습과 함께 추가 이점을 제공합니다.
Neural networks are known to be vulnerable to adversarial examples. Carefully chosen perturbations to real images, while imperceptible to humans, induce misclassification and threaten the reliability of deep learning systems in the wild. To guard against adversarial examples, we take inspiration from game theory and cast the problem as a minimax zero-sum game between the adversary and the model. In general, for such games, the optimal strategy for both players requires a stochastic policy, also known as a mixed strategy. In this light, we propose Stochastic Activation Pruning (SAP), a mixed strategy for adversarial defense. SAP prunes a random subset of activations (preferentially pruning those with smaller magnitude) and scales up the survivors to compensate. We can apply SAP to pretrained networks, including adversarially trained models, without fine-tuning, providing robustness against adversarial examples. Experiments demonstrate that SAP confers robustness against attacks, increasing accuracy and preserving calibration.
연구 동기 및 목표
- 신경망에서 적대적 예제에 대한 강건성의 동기를 게임 이론적 관점에서 제시합니다.
- 사후적으로 사전에 학습된 모델을 방어하기 위한 확률적 혼합 전략으로 SAP를 도입합니다.
- SAP의 적대적 섭동에 대한 효과를 입증하고 보정(calibration)을 평가합니다.
- SAP를 드롭아웃 및 적대적 학습과 비교하고 강화 학습 적용 가능성을 탐색합니다.
제안 방법
- SAP를 적대자와 방어자 사이의 미니맥스 게임에서 혼합 전략으로 정의합니다.
- 활성화 크기에 비례하여 다항분포에서 샘플링하여 각 계층의 임의 부분집합의 활성화를 가지치기합니다.
- 역확률 샘플링으로 잔존 활성화를 스케일링하여 다이나믹 레인지가 보존되도록 하여 기대 활성화를 유지합니다.
- 미세 조정 없이 사전 학습된 네트워크에 SAP를 사후 적용합니다.
- CIFAR-10의 ResNet-20으로 이미지 분류를 평가하고 심층 강화 학습에서 Atari의 DDQN을 평가합니다.
- SAP를 드롭아웃, 가우시안/노이즈 베이스라인 및 적대적 학습과 비교하고, 확률적 모델의 기울기를 추정하기 위해 MC 샘플링을 사용합니다.
실험 결과
연구 질문
- RQ1SAP가 미세 조정 없이도 사전 학습된 네트워크의 강건성을 적대적 섭동에 대해 향상시킬 수 있는가?
- RQ2SAP가 시야 및 강화 학습 과제 전반에서 FGSM 및 반복 공격하에서 정확도, 보정 및 강건성에 어떤 영향을 미치는가?
- RQ3SAP가 적대적 학습 및 기타 확률적 방어와 어떻게 상호 작용하는가?
주요 결과
- SAP 기반 모델은 특정 섭동 수준에서 적대적 섭동에 대한 정확도가 향상되는 경향이 있음(SAP-100은 CIFAR-10 실험에서 lambda 값이 1, 2, 4와 같은 경우에 절대 이득을 제공).
- SAP는 중간 정도의 섭동에서 정확도를 보존하고 밀집 모델에 비해 보정을 개선합니다.
- SAP-100과 결합된 적대적 학습(ADV + SAP-100)은 더 큰 섭동 크기에서 단독 적대적 학습보다 더 높은 정확도를 달성합니다.
- 강화 학습에서 SAP-100은 여러 Atari 게임에서 비영(0이 아닌) 섭동에 대해 상대적 보상 향상을 크게 나타내며, 일부 경우에는 매우 큰 이득을 보입니다.
- SAP는 확률적 방어로서 드롭아웃보다 일반적으로 우월한 경향이며 재학습 없이도 후처리 수정으로서도 효과적입니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.