[논문 리뷰] Deep Defense: Training DNNs with Improved Adversarial Robustness
Deep Defense는 perturbation 기반 정규화기를 분류기 학습 목표에 통합하여 DNN의 악의적 공격에 대한 강인성을 향상시키면서 양성 데이터에 대한 정확도를 유지합니다.
Despite the efficacy on a variety of computer vision tasks, deep neural networks (DNNs) are vulnerable to adversarial attacks, limiting their applications in security-critical systems. Recent works have shown the possibility of generating imperceptibly perturbed image inputs (a.k.a., adversarial examples) to fool well-trained DNN classifiers into making arbitrary predictions. To address this problem, we propose a training recipe named "deep defense". Our core idea is to integrate an adversarial perturbation-based regularizer into the classification objective, such that the obtained models learn to resist potential attacks, directly and precisely. The whole optimization problem is solved just like training a recursive network. Experimental results demonstrate that our method outperforms training with adversarial/Parseval regularizations by large margins on various datasets (including MNIST, CIFAR-10 and ImageNet) and different DNN architectures. Code and models for reproducing our results are available at https://github.com/ZiangYan/deepdefense.pytorch
연구 동기 및 목표
- 보안이 중요한 작업에서 악의적 취약점을 다루어 로버스트한 DNN을 확보한다.
- 악의적 예로부터 직접 학습하는 perturbation 기반 정규화를 제안한다.
- 양성 데이터에 대한 정확도 유지나 개선과 함께 공격자에 대한 저항성을 높인다.
- 효율적 최적화를 가능하게 하는 미분 가능하고 네트워크 기반의 형태를 제공한다.
제안 방법
- 악의적扰动의 노름을 벌주는 정규화된 목표를 형태화한다.
- Delta_x를 계산하기 위해 DeepFool 기반 모듈로 adversarial perturbations를 근사한다.
- 역방향/재귀 신경망으로扰动 계산을 표현하여 공동 최적화를 달성한다.
- 더 어렵게 공격되어도 올바르게 분류되는 샘플에 초점을 맞추기 위해 R이라는 지수형 함수를 사용한다.
- 정확히 분류된 사례와 오분류된 사례를 샘플별 가중치를 통해 균형 있게 조정한다.
- 전혀 처음부터 학습하기보다 기존 모델을 미세조정하여 다양한 아키텍처 간 일반화 가능성을 평가한다.
실험 결과
연구 질문
- RQ1훈련 중 perturbation 기반 정규화를 도입하면 표준 데이터셋과 아키텍처에서 악의적 공격에 대한 강건성이 향상되는가?
- RQ2Deep Defense가 MNIST, CIFAR-10, ImageNet에서 양성 집합의 정확도를 악화시키지 않으면서 강인성을 개선할 수 있는가?
- RQ3이 방법이 DeepFool 및 FGS와 같은 강한 공격 하에서 adversarial training 및 Parseval training과 어떻게 비교되는가?
- RQ4하이퍼파라미터와 계층별 정규화가 강건성과 정확도에 어떤 영향을 미치는가?
- RQ5대규모 네트워크와 데이터셋에서도 계산적으로 실행 가능성을 유지하며 확장 가능한가?
주요 결과
- Deep Defense는 MNIST, CIFAR-10, ImageNet 전반에 걸쳐 로버스트니스 측정치에서 경쟁 방어책을 지속적으로 상회하고 양성 정확도를 유지하거나 향상시킨다.
- MNIST에서 Ours는 98.65%의 양성 정확도와 Reference의 98.31%에 비해 DeepFool 및 FGS 공격에 훨씬 더 높은 강인성을 보인다.
- LeNet에서 Ours는 양성 정확도를 99.34%로 끌어올리고 Adversarial/Parseval 기준선보다 강한 강건성을 달성한다.
- CIFAR-10(ConvNet, NIN)에서 Ours는 양성 정확도가 더 높고 강건성도 현저히 향상되어 예: 두 네트워크의 Acc.@1.0ε_ref가 각각 50.00%에 달한다.
- ImageNet(AlexNet, ResNet)에서 Ours는 양성 정확도 측면에서 소폭 개선을 보이고 DeepFool 강건성이 약 1.5배 향상된다.
- 지수 가중치 R을 가진 하이브리드 정규화기가 취약하고 올바르게 분류된 샘플에 초점을 맞추며 전체 성능을 해치지 않는다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.