Skip to main content
QUICK REVIEW

[논문 리뷰] Deep Defense: Training DNNs with Improved Adversarial Robustness

Ziang Yan, Yiwen Guo|arXiv (Cornell University)|2018. 02. 23.
Adversarial Robustness in Machine Learning참고 문헌 8인용 수 52
한 줄 요약

Deep Defense는 perturbation 기반 정규화기를 분류기 학습 목표에 통합하여 DNN의 악의적 공격에 대한 강인성을 향상시키면서 양성 데이터에 대한 정확도를 유지합니다.

ABSTRACT

Despite the efficacy on a variety of computer vision tasks, deep neural networks (DNNs) are vulnerable to adversarial attacks, limiting their applications in security-critical systems. Recent works have shown the possibility of generating imperceptibly perturbed image inputs (a.k.a., adversarial examples) to fool well-trained DNN classifiers into making arbitrary predictions. To address this problem, we propose a training recipe named "deep defense". Our core idea is to integrate an adversarial perturbation-based regularizer into the classification objective, such that the obtained models learn to resist potential attacks, directly and precisely. The whole optimization problem is solved just like training a recursive network. Experimental results demonstrate that our method outperforms training with adversarial/Parseval regularizations by large margins on various datasets (including MNIST, CIFAR-10 and ImageNet) and different DNN architectures. Code and models for reproducing our results are available at https://github.com/ZiangYan/deepdefense.pytorch

연구 동기 및 목표

  • 보안이 중요한 작업에서 악의적 취약점을 다루어 로버스트한 DNN을 확보한다.
  • 악의적 예로부터 직접 학습하는 perturbation 기반 정규화를 제안한다.
  • 양성 데이터에 대한 정확도 유지나 개선과 함께 공격자에 대한 저항성을 높인다.
  • 효율적 최적화를 가능하게 하는 미분 가능하고 네트워크 기반의 형태를 제공한다.

제안 방법

  • 악의적扰动의 노름을 벌주는 정규화된 목표를 형태화한다.
  • Delta_x를 계산하기 위해 DeepFool 기반 모듈로 adversarial perturbations를 근사한다.
  • 역방향/재귀 신경망으로扰动 계산을 표현하여 공동 최적화를 달성한다.
  • 더 어렵게 공격되어도 올바르게 분류되는 샘플에 초점을 맞추기 위해 R이라는 지수형 함수를 사용한다.
  • 정확히 분류된 사례와 오분류된 사례를 샘플별 가중치를 통해 균형 있게 조정한다.
  • 전혀 처음부터 학습하기보다 기존 모델을 미세조정하여 다양한 아키텍처 간 일반화 가능성을 평가한다.

실험 결과

연구 질문

  • RQ1훈련 중 perturbation 기반 정규화를 도입하면 표준 데이터셋과 아키텍처에서 악의적 공격에 대한 강건성이 향상되는가?
  • RQ2Deep Defense가 MNIST, CIFAR-10, ImageNet에서 양성 집합의 정확도를 악화시키지 않으면서 강인성을 개선할 수 있는가?
  • RQ3이 방법이 DeepFool 및 FGS와 같은 강한 공격 하에서 adversarial training 및 Parseval training과 어떻게 비교되는가?
  • RQ4하이퍼파라미터와 계층별 정규화가 강건성과 정확도에 어떤 영향을 미치는가?
  • RQ5대규모 네트워크와 데이터셋에서도 계산적으로 실행 가능성을 유지하며 확장 가능한가?

주요 결과

  • Deep Defense는 MNIST, CIFAR-10, ImageNet 전반에 걸쳐 로버스트니스 측정치에서 경쟁 방어책을 지속적으로 상회하고 양성 정확도를 유지하거나 향상시킨다.
  • MNIST에서 Ours는 98.65%의 양성 정확도와 Reference의 98.31%에 비해 DeepFool 및 FGS 공격에 훨씬 더 높은 강인성을 보인다.
  • LeNet에서 Ours는 양성 정확도를 99.34%로 끌어올리고 Adversarial/Parseval 기준선보다 강한 강건성을 달성한다.
  • CIFAR-10(ConvNet, NIN)에서 Ours는 양성 정확도가 더 높고 강건성도 현저히 향상되어 예: 두 네트워크의 Acc.@1.0ε_ref가 각각 50.00%에 달한다.
  • ImageNet(AlexNet, ResNet)에서 Ours는 양성 정확도 측면에서 소폭 개선을 보이고 DeepFool 강건성이 약 1.5배 향상된다.
  • 지수 가중치 R을 가진 하이브리드 정규화기가 취약하고 올바르게 분류된 샘플에 초점을 맞추며 전체 성능을 해치지 않는다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.