QUICK REVIEW

[논문 리뷰] Towards Robust Neural Networks via Random Self-ensemble

Xuanqing Liu, Minhao Cheng|arXiv (Cornell University)|2017. 12. 02.

Adversarial Robustness in Machine Learning참고 문헌 32인용 수 46

한 줄 요약

이 논문은 훈련 및 추론 중 각 합성곱 레이어 이전에 무작위 노이즈 레이어를 삽입하여 딥 네ural 네트워크의 강건성을 향상시키는 Random Self-Ensemble (RSE)를 제안한다. 노이즈가 첨가된 확률적 경사 하강법을 사용하여 훈련하고, 여러 차례의 노이즈가 첨가된 순방향 전파 결과를 앙상블함으로써, RSE는 C&W 공격에 대해 VGG16 기반 CIFAR-10에서 86.1%의 정확도를 달성한다—기존 방어 방법들과 비교해 뚜렷이 뛰어나며, 추가 메모리가 필요로 하지 않으면서도 간편하게 구현 가능하다.

ABSTRACT

Recent studies have revealed the vulnerability of deep neural networks: A small adversarial perturbation that is imperceptible to human can easily make a well-trained deep neural network misclassify. This makes it unsafe to apply neural networks in security-critical applications. In this paper, we propose a new defense algorithm called Random Self-Ensemble (RSE) by combining two important concepts: {\bf randomness} and {\bf ensemble}. To protect a targeted model, RSE adds random noise layers to the neural network to prevent the strong gradient-based attacks, and ensembles the prediction over random noises to stabilize the performance. We show that our algorithm is equivalent to ensemble an infinite number of noisy models $f_ε$ without any additional memory overhead, and the proposed training procedure based on noisy stochastic gradient descent can ensure the ensemble model has a good predictive capability. Our algorithm significantly outperforms previous defense techniques on real data sets. For instance, on CIFAR-10 with VGG network (which has 92\% accuracy without any attack), under the strong C\&W attack within a certain distortion tolerance, the accuracy of unprotected model drops to less than 10\%, the best previous defense technique has $48\%$ accuracy, while our method still has $86\%$ prediction accuracy under the same level of attack. Finally, our method is simple and easy to integrate into any neural network.

연구 동기 및 목표

비차별적인 적대적 편향으로 인해 잘못 분류되는 깊이 신경망의 취약성을 해결한다.
모델 크기 증가나 아키텍처 변경 없이 강건성을 향상시키는 방어 메커니즘을 개발한다.
C&W와 같은 강력한 백색 상자 공격에 효과적으로 대응하면서 자연 이미지에 대한 높은 정확도를 유지할 수 있도록 한다.
어떠한 사전 훈련된 신경망에나 적용 가능한 단순하고 즉시 사용 가능한 방어 방법을 제공한다.

제안 방법

각 합성곱 레이어 이전에 입력에 무작위 노이즈를 주입하는 '노이즈 레이어'를 도입한다. 이는 훈련 및 추론 모두에서 수행된다.
노이즈가 첨가된 확률적 경사 하강법을 사용하여 네트워크를 훈련한다. 이는 역전파 과정에서 기울기를 노이즈로 흐리게 하여 모델을 정규화한다.
추론 과정에서는 서로 다른 무작위 노이즈 실현값을 가진 여러 번의 순방향 전파를 수행하고 예측 결과를 앙상블하여 강건성을 향상시킨다.
이론적 분석을 통해 RSE는 메모리 오버헤드 없이 무한한 수의 노이즈가 첨가된 모델 $ f_\epsilon $ 를 앙상블하는 것과 동일하다고 밝혔다.
이 방법은 모델에 암묵적인 리프시츠 정규화를 추가하여 입력 편향에 대한 강건성을 향상시킨다.
훈련 과정은 앙상블 모델의 손실에 대한 상한선을 최소화함으로써 일반화 및 예측 성능가 좋은 결과를 보장한다.

실험 결과

연구 질문

RQ1훈련 및 추론 중 무작위 노이즈 주입이 모델 크기를 늘리지 않고도 적대적 강건성을 향상시킬 수 있는가?
RQ2기존 앙상블 방법과 비교해 무작위로 편향된 모델에 대한 자체 앙상블은 강건성과 효율성 측면에서 어떻게 다른가?
RQ3기존 방어 기법과 비교해 RSE는 C&W와 같은 강력한 백색 상자 공격에 대해 얼마나 강건성을 향상시키는가?
RQ4제안된 방법은 강건성을 크게 향상시키는 동시에 자연(비적대적) 이미지에 대한 정확도를 유지하는가?
RQ5RSE는 아키텍처 수정 없이 다양한 아키텍처와 데이터셋에 효과적으로 적용 가능한가?

주요 결과

VGG16 기반 CIFAR-10에서 RSE는 C&W 무타겟 공격에 대해 왜곡 허용치 0.21를 기준으로 86.1%의 정확도를 달성하며, 최고의 기존 방어 방법(48%)과 무방비 모델(10% 미만)을 크게 능가한다.
RSE는 성공적인 공격에 필요한 왜곡을 크게 증가시킨다. RSE 하에서의 적대적 예제는 다른 방어 방법에 비해 훨씬 더 왜곡되어 있음을 그림 2 및 그림 5에서 확인할 수 있다.
자연 이미지에 대한 테스트 정확도를 높게 유지하며, 표준 모델과 비교해 약간의 성능 저하만을 보이며 청소년 데이터 성능에 미치는 영향은 최소한이다.
10회의 노이즈가 첨가된 순방향 전파 앙상블만으로도 정확도 향상의 포화 상태에 도달함을 확인하여, 10~50회의 앙상블이 최적 성능을 내기 충분하다고 판단된다.
RSE는 표준 적대적 훈련과 더 강력한 변형(Adversarial Training II) 모두보다 강건성과 훈련 효율성 측면에서 뛰어나며, 후자는 약 10배 더 긴 훈련 시간이 소요된다.
RSE는 무타겟 공격 뿐만 아니라 타겟 공격에도 효과적이며, 그림 6의 시각화 결과에서 더 왜곡된 적대적 예제가 생성되는 것으로 확인된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.