[논문 리뷰] Towards Robust Neural Networks via Random Self-ensemble
이 논문은 훈련 및 추론 중 각 합성곱 레이어 이전에 무작위 노이즈 레이어를 삽입하여 딥 네ural 네트워크의 강건성을 향상시키는 Random Self-Ensemble (RSE)를 제안한다. 노이즈가 첨가된 확률적 경사 하강법을 사용하여 훈련하고, 여러 차례의 노이즈가 첨가된 순방향 전파 결과를 앙상블함으로써, RSE는 C&W 공격에 대해 VGG16 기반 CIFAR-10에서 86.1%의 정확도를 달성한다—기존 방어 방법들과 비교해 뚜렷이 뛰어나며, 추가 메모리가 필요로 하지 않으면서도 간편하게 구현 가능하다.
Recent studies have revealed the vulnerability of deep neural networks: A small adversarial perturbation that is imperceptible to human can easily make a well-trained deep neural network misclassify. This makes it unsafe to apply neural networks in security-critical applications. In this paper, we propose a new defense algorithm called Random Self-Ensemble (RSE) by combining two important concepts: {\bf randomness} and {\bf ensemble}. To protect a targeted model, RSE adds random noise layers to the neural network to prevent the strong gradient-based attacks, and ensembles the prediction over random noises to stabilize the performance. We show that our algorithm is equivalent to ensemble an infinite number of noisy models $f_ε$ without any additional memory overhead, and the proposed training procedure based on noisy stochastic gradient descent can ensure the ensemble model has a good predictive capability. Our algorithm significantly outperforms previous defense techniques on real data sets. For instance, on CIFAR-10 with VGG network (which has 92\% accuracy without any attack), under the strong C\&W attack within a certain distortion tolerance, the accuracy of unprotected model drops to less than 10\%, the best previous defense technique has $48\%$ accuracy, while our method still has $86\%$ prediction accuracy under the same level of attack. Finally, our method is simple and easy to integrate into any neural network.
연구 동기 및 목표
- 비차별적인 적대적 편향으로 인해 잘못 분류되는 깊이 신경망의 취약성을 해결한다.
- 모델 크기 증가나 아키텍처 변경 없이 강건성을 향상시키는 방어 메커니즘을 개발한다.
- C&W와 같은 강력한 백색 상자 공격에 효과적으로 대응하면서 자연 이미지에 대한 높은 정확도를 유지할 수 있도록 한다.
- 어떠한 사전 훈련된 신경망에나 적용 가능한 단순하고 즉시 사용 가능한 방어 방법을 제공한다.
제안 방법
- 각 합성곱 레이어 이전에 입력에 무작위 노이즈를 주입하는 '노이즈 레이어'를 도입한다. 이는 훈련 및 추론 모두에서 수행된다.
- 노이즈가 첨가된 확률적 경사 하강법을 사용하여 네트워크를 훈련한다. 이는 역전파 과정에서 기울기를 노이즈로 흐리게 하여 모델을 정규화한다.
- 추론 과정에서는 서로 다른 무작위 노이즈 실현값을 가진 여러 번의 순방향 전파를 수행하고 예측 결과를 앙상블하여 강건성을 향상시킨다.
- 이론적 분석을 통해 RSE는 메모리 오버헤드 없이 무한한 수의 노이즈가 첨가된 모델 $ f_\epsilon $ 를 앙상블하는 것과 동일하다고 밝혔다.
- 이 방법은 모델에 암묵적인 리프시츠 정규화를 추가하여 입력 편향에 대한 강건성을 향상시킨다.
- 훈련 과정은 앙상블 모델의 손실에 대한 상한선을 최소화함으로써 일반화 및 예측 성능가 좋은 결과를 보장한다.
실험 결과
연구 질문
- RQ1훈련 및 추론 중 무작위 노이즈 주입이 모델 크기를 늘리지 않고도 적대적 강건성을 향상시킬 수 있는가?
- RQ2기존 앙상블 방법과 비교해 무작위로 편향된 모델에 대한 자체 앙상블은 강건성과 효율성 측면에서 어떻게 다른가?
- RQ3기존 방어 기법과 비교해 RSE는 C&W와 같은 강력한 백색 상자 공격에 대해 얼마나 강건성을 향상시키는가?
- RQ4제안된 방법은 강건성을 크게 향상시키는 동시에 자연(비적대적) 이미지에 대한 정확도를 유지하는가?
- RQ5RSE는 아키텍처 수정 없이 다양한 아키텍처와 데이터셋에 효과적으로 적용 가능한가?
주요 결과
- VGG16 기반 CIFAR-10에서 RSE는 C&W 무타겟 공격에 대해 왜곡 허용치 0.21를 기준으로 86.1%의 정확도를 달성하며, 최고의 기존 방어 방법(48%)과 무방비 모델(10% 미만)을 크게 능가한다.
- RSE는 성공적인 공격에 필요한 왜곡을 크게 증가시킨다. RSE 하에서의 적대적 예제는 다른 방어 방법에 비해 훨씬 더 왜곡되어 있음을 그림 2 및 그림 5에서 확인할 수 있다.
- 자연 이미지에 대한 테스트 정확도를 높게 유지하며, 표준 모델과 비교해 약간의 성능 저하만을 보이며 청소년 데이터 성능에 미치는 영향은 최소한이다.
- 10회의 노이즈가 첨가된 순방향 전파 앙상블만으로도 정확도 향상의 포화 상태에 도달함을 확인하여, 10~50회의 앙상블이 최적 성능을 내기 충분하다고 판단된다.
- RSE는 표준 적대적 훈련과 더 강력한 변형(Adversarial Training II) 모두보다 강건성과 훈련 효율성 측면에서 뛰어나며, 후자는 약 10배 더 긴 훈련 시간이 소요된다.
- RSE는 무타겟 공격 뿐만 아니라 타겟 공격에도 효과적이며, 그림 6의 시각화 결과에서 더 왜곡된 적대적 예제가 생성되는 것으로 확인된다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.