[논문 리뷰] Adv-BNN: Improved Adversarial Defense through Robust Bayesian Neural Network
Adv-BNN은 가중치를 확률화하고 강건한 ELBO를 최적화하여 적대적 학습과 Bayesian 신경망을 결합한 것으로, CIFAR-10, STL-10,ImageNet-143 부분집합에서 강한 white-box PGD 공격에 대해 개선된 강건성을 달성한다.
We present a new algorithm to train a robust neural network against adversarial attacks. Our algorithm is motivated by the following two ideas. First, although recent work has demonstrated that fusing randomness can improve the robustness of neural networks (Liu 2017), we noticed that adding noise blindly to all the layers is not the optimal way to incorporate randomness. Instead, we model randomness under the framework of Bayesian Neural Network (BNN) to formally learn the posterior distribution of models in a scalable way. Second, we formulate the mini-max problem in BNN to learn the best model distribution under adversarial attacks, leading to an adversarial-trained Bayesian neural net. Experiment results demonstrate that the proposed algorithm achieves state-of-the-art performance under strong attacks. On CIFAR-10 with VGG network, our model leads to 14\% accuracy improvement compared with adversarial training (Madry 2017) and random self-ensemble (Liu 2017) under PGD attack with $0.035$ distortion, and the gap becomes even larger on a subset of ImageNet.
연구 동기 및 목표
- 무작위성을 적대적 학습과 통합하여 강건한 신경망을 동기 부여한다.
- BNN 프레임워크 내에서 미니-맥스 강건 최적화를 형식화한다.
- 베이즈 바이 백프로프(Bayes by Backprop)와 가중치에 대한 변분 사후를 사용한 확장 가능한 학습 절차를 개발한다.
- 여러 데이터셋에서 강한 화이트박스 적대적 공격에 대한 개선된 강건성을 입증한다.
제안 방법
- 모든 네트워크 가중치를 μ, s로 표현된 완전 인자화 가우시안 사후 q(w|μ, s)로 확률적 모델링한다.
- 정규화용으로 닫힌 형태의 KL 발산을 얻기 위해 가우시안 사전 p(w)를 사용한다.
- γ-노름 구역 내에서 적대적으로扰扰된 입력에 대해 최대화하여 강건한 목적함수를 정의한다: min_adv_x ∥x_adv - x∥≤γ E_{w~q}[log p(y|x_adv, w)].
- Bayes by Backprop 및 재매개변수화 w = μ + exp(s) ⊙ ε를 사용해 편향 없는 그래디언트 추정치를 얻어 목적함수를 근사한다.
- 프로젝티드 그래디언트 디센트(PGD)를 통한 적대적 예제 생성과 μ, s에 대한 SGD 업데이트를 번갈아 수행하며 학습한다.
- 다른 데이터셋 크기나 모델 규모에 맞춰 정규화를 균형 있게 하기 위해 KL 항에 간소화된 스케일 인자 α를 추가한다.
실험 결과
연구 질문
- RQ1적대적 학습과 베이지안 신경망의 결합이 개별적으로 수행된 적대적 학습이나 확률적 방어보다 강건성을 향상시키는가?
- RQ2다양한 데이터셋과 모델 규모에서 강한 화이트박스 PGD 공격에 대해 Adv-BNN의 성능은 어떠한가?
- RQ3가중치 기반 무작위성이 실제로 강건성 및 예측 성능에 미치는 영향은 무엇인가?
주요 결과
- Adv-BNN은 여러 데이터셋에서 적대적 학습 및 Random Self-Ensemble(RSE)보다 향상된 강건성을 달성한다.
- PGD 공격하에서, 비례 변형 수준에서 CIFAR-10, STL-10, ImageNet-143에서 Adv-BNN이 적대적 학습보다 더 높은 테스트 정확도를 보인다.
- 강건성 증가폭은 상당하며(예: CIFAR-10에서 PGD 0.035 왜곡에서, Adv-BNN은 표준 적대적 학습보다 의미 있는 차이로 우수한 성능을 보인다).
- 가중치 불확실성을 사용하는 것이 적대적 학습과 결합될 때 더 큰 강건성 향상을 제공하며, 단독으로는(BNN만 사용할 때는) 강건성 증가가 없다.
- 이 방법은 매개변수 저장이 대략 두 배 정도 필요하고(평균 및 분산), 학습 시간 오버헤드는 낮은 편이며, 기존 아키텍처에서 레이어를 변분적 등가물로 교체하는 방식으로 쉽게 적용 가능하다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.