Skip to main content
QUICK REVIEW

[논문 리뷰] Ensemble Methods as a Defense to Adversarial Perturbations Against Deep Neural Networks

Thilo Strauss, Markus Hanselmann|arXiv (Cornell University)|2017. 09. 11.
Adversarial Robustness in Machine Learning참고 문헌 22인용 수 77
한 줄 요약

이 논문은 적대적 교란에 대한 유일한 방어로서 앙상블 방법을 사용하는 것을 조사하고, 앙상블이 MNIST 및 CIFAR-10에서 원 데이터의 정확도와 공격에 대한 강건성 모두를 향상시킨다는 것을 보여준다.

ABSTRACT

Deep learning has become the state of the art approach in many machine learning problems such as classification. It has recently been shown that deep learning is highly vulnerable to adversarial perturbations. Taking the camera systems of self-driving cars as an example, small adversarial perturbations can cause the system to make errors in important tasks, such as classifying traffic signs or detecting pedestrians. Hence, in order to use deep learning without safety concerns a proper defense strategy is required. We propose to use ensemble methods as a defense strategy against adversarial perturbations. We find that an attack leading one model to misclassify does not imply the same for other networks performing the same task. This makes ensemble methods an attractive defense strategy against adversarial attacks. We empirically show for the MNIST and the CIFAR-10 data sets that ensemble methods not only improve the accuracy of neural networks on test data but also increase their robustness against adversarial perturbations.

연구 동기 및 목표

  • 안전에 중요한 작업에 사용되는 깊은 신경망에서 적대적 교란에 대한 강건한 방어의 필요성을 동기화한다.
  • 정확도(깨끗한 데이터)와 적대적 공격에 대한 강건성 모두를 향상시킬 수 있는 방어 전략으로써 앙상블 방법을 제안한다.
  • MNIST와 CIFAR-10에서 FGSM과 BIM과 같은 일반적인 공격에 대해 앙상블을 체계적으로 평가한다.
  • 적대적 학습(adversarial training) 및 방어적 증류(defensive distillation)와 같은 기존 방어책과의 비교 및 조합을 포함하여 비교한다.
  • 앙상블 방어의 계산 복잡도와 메모리 사용에 있어 실용적 트레이드오프를 논의한다.

제안 방법

  • 무작위 초기화, 아키텍처 다양성, 학습 데이터의 배깅(bagging), 또는 가우시안 노이즈를 도입한 10개의 분류기로 구성된 앙상블을 방어 수단으로 사용한다.
  • Gradients Grad.1(개별 분류기의 그래디언트) 및 Grad.2(앙상블 전체의 평균 그래디언트)를 사용한 FGSM 및 BIM에 의한 공격 평가를 통해 강건성을 테스트한다.
  • 지정된 아키텍처를 가진 간단한 MNIST 및 CIFAR-10 네트워크를 학습시키고, 깨끗한 데이터에 대한 정확도와 공격된 데이터에 대한 정확도를 비교한다.
  • 랜덤 초기화, 유사 아키텍처, 배깅, 가우시안 노이즈 등 다양한 앙상블 전략을 단일 모델과 비교한다.
  • 적대적 학습이나 방어적 증류와의 조합을 통해 강건성과 정확도에 대한 추가 효과를 평가한다.

실험 결과

연구 질문

  • RQ1앙상블 방식만으로도 깨끗한 데이터에 대한 정확도를 희생하지 않으면서 DNN의 적대적 교란에 대한 강건성을 개선할 수 있는가?
  • RQ2MNIST와 CIFAR-10 전반에서 FGSM 및 BIM 공격에 대해 어떤 앙상블 전략이 가장 큰 강건성을 제공하는가?
  • RQ3앙상블이 적대적 학습 및 방어적 증류와 비교하여 어떠하며, 조합이 추가적인 이익이나 비용을 제공하는가?
  • RQ4앙상블에 표적화된 공격 그래디언트(Grad.1 대 Grad.2)가 적대적 효과에 어떤 차이를 만들어내는가?

주요 결과

  • 앙상블은 MNIST와 CIFAR-10에서 FGSM 및 BIM 공격 하에서 단일 분류기보다 우수한 성능을 보인다.
  • 학습 중 가우시안 노이즈를 사용하는 것이 테스트된 앙상블 전략 중 적대적 교란에 대한 최상의 방어를 제공한다.
  • 배깅은 일반적으로 강건성 향상을 가져오지만 깨끗한 데이터 정확도에 약간의 비용이 들기도 한다.
  • 적대적 학습과 결합된 앙상블은 강건성을 더욱 향상시킬 수 있지만, 방어적 증류와의 조합은 표준 앙상블을 일관되게 능가하지는 못한다.
  • 깨끗한 데이터에서 앙상블은 일반적으로 단일 모델에 비해 정확도를 유지하거나 약간 향상시킨다.
  • Grad.1로 인한 BIM 하에서 앙상블의 강건성은 MNIST에서 89–98%, CIFAR-10에서 68–73%에 이르며, 단일 모델 대비 상당한 이점을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.