Skip to main content
QUICK REVIEW

[논문 리뷰] Defend Deep Neural Networks Against Adversarial Examples via Fixed and Dynamic Quantized Activation Functions

Adnan Siraj Rakin, Jinfeng Yi|arXiv (Cornell University)|2018. 07. 18.
Adversarial Robustness in Machine Learning참고 문헌 49인용 수 35
한 줄 요약

이 논문은 적대적 예제에 대한 강건성을 향상시키기 위해 적대적 훈련 중에 활성화 양자화 임계값을 동적으로 학습하는 새로운 방어 기법인 동적 양자화 활성화(DQA)를 제안한다. 이 방법은 동시에 모델의 압축성과 강건성을 향상시켜, 강력한 화이트박스 및_BLK 박스 공격 하에서 MNIST 및 CIFAR-10에서 최신 기술 수준의 방어 정확도를 달성한다.

ABSTRACT

Recent studies have shown that deep neural networks (DNNs) are vulnerable to adversarial attacks. To this end, many defense approaches that attempt to improve the robustness of DNNs have been proposed. In a separate and yet related area, recent works have explored to quantize neural network weights and activation functions into low bit-width to compress model size and reduce computational complexity. In this work, we find that these two different tracks, namely the pursuit of network compactness and robustness, can be merged into one and give rise to networks of both advantages. To the best of our knowledge, this is the first work that uses quantization of activation functions to defend against adversarial examples. We also propose to train robust neural networks by using adaptive quantization techniques for the activation functions. Our proposed Dynamic Quantized Activation (DQA) is verified through a wide range of experiments with the MNIST and CIFAR-10 datasets under different white-box attack methods, including FGSM, PGD, and C & W attacks. Furthermore, Zeroth Order Optimization and substitute model-based black-box attacks are also considered in this work. The experimental results clearly show that the robustness of DNNs could be greatly improved using the proposed DQA.

연구 동기 및 목표

  • 미시적 변형이 가해진 입력을 오분류할 수 있는 적대적 예제에 대한 딥 네트워크(DNN)의 취약성을 해결한다.
  • 활성화 양자화를 통한 모델 압축과 적대적 강건성 간의 상호보완적 관계를 탐색한다. 이는 기존에 별개로 다뤄져 온 연구 분야이다.
  • 모델 효율성이나 정확도를 희생시키지 않고 강건성을 향상시키는 방어 메커니즘을 개발한다.
  • 다양한 공격 유형, 특히 화이트박스 및 블랙박스 공격에 대해 양자화된 활성화 함수의 효과를 검증한다.
  • 적대적 훈련 중에 동적으로 학습 가능한 양자화 임계값이 고정된 양자화보다 강건성을 크게 향상시킨다는 것을 입증한다.

제안 방법

  • 고정된 임계값을 사용하여 활성화 출력을 저비트 폭(예: 1-, 2-, 또는 3비트)으로 양자화하는 고정 양자화 활성화(FQA)를 제안하여 적대적 노이즈의 영향을 줄인다.
  • 양자화 임계값이 미분 가능하고, 네트워크 가중치와 함께 적대적 훈련 중에 동시에 최적화되는 동적 양자화 활성화(DQA)를 도입한다.
  • FGSM, PGD, C&W 공격을 사용한 적대적 훈련을 통해 DQA를 훈련 파이프라인에 통합하여 강건성을 향상시킨다.
  • 실제 위협 모델을 반영하기 위해 제로계수 최적화(ZOO) 및 대체 모델 기반의 블랙박스 공격을 사용하여 강건성을 평가한다.
  • 백본 모델로 ResNet-18과 VGG16/AlexNet를 사용하고, 블랙박스 공격 평가를 위해 정밀도가 높은 모델을 대체로 사용한다.
  • 양자화된 활성화를 적용한 모델을 훈련하고, 다양한 데이터셋과 공격 유형에서 정상 및 적대적 정확도를 평가한다.

실험 결과

연구 질문

  • RQ1고정된 활성화 양자화만으로도 DNN의 적대적 예제에 대한 강건성을 향상시킬 수 있는가?
  • RQ2적대적 훈련 중에 양자화 임계값을 동적으로 학습하는 것이 고정된 양자화보다 더 강력한 강건성을 제공하는가?
  • RQ3활성화 양자화가 화이트박스 및 블랙박스 공격 양자 모두에 효과적인 방어 수단이 될 수 있는가?
  • RQ4DQA는 강건성을 향상시키는 동안 모델 정확도와 압축성의 유지 정도는 어느 정도인가?
  • RQ5ZOO 및 대체 모델 공격과 같은 고급 블랙박스 공격에 대해 DQA는 얼마나 효과적인가?

주요 결과

  • 고정된 활성화 양자화(예: 1-, 2-, 또는 3비트)는 적대적 공격의 성공률을 크게 감소시켜, 양자화가 본질적으로 적대적 노이즈를 억제한다는 것을 보여준다.
  • CIFAR-10에서 2비트 양자화 조건 하에 DQA 방어는 공격 없이도 85.06%의 테스트 정확도를 달성하여 기준 모델을 초월한다.
  • C&W 및 PGD 화이트박스 공격 하에서 DQA는 1비트 활성화 양자화 조건에서도 80% 이상의 정확도를 유지하여 강력한 강건성을 보여준다.
  • ZOO 블랙박스 공격에서는 모든 비트 폭(1-, 2-, 3비트)에서 DQA가 0%의 공격 성공률을 기록하여, 비가역적 양자화로 인해 기울기 근사가 실패함을 시사한다.
  • 대체 모델 공격에서는 VGG16을 대체 모델로 사용했을 때 3비트 및 2비트 모델에서 각각 82.59% 및 82.11%의 정확도를 유지하며, 대체 모델의 정확도를 크게 상회한다.
  • 대체 모델이 정밀도가 높고 매우 능숙한 경우에도 방어 성능이 유지됨을 확인하여, DQA의 강건성이 모델 단순성 때문이 아니라 양자화 메커니즘 자체에 기인함을 입증한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.