[논문 리뷰] Improving Adversarial Robustness of Ensembles with Diversity Training
이 논문은 Gradient Alignment Loss GAL을 사용하여 서로 상관되지 않는 손실 기울기를 갖는 앙상블을 훈련시켜 공유된 적대적 하위공간을 줄이고 전이 기반 강건성을 향상시키며, 선택적으로 Ensemble Adversarial Training과 결합한다.
Deep Neural Networks are vulnerable to adversarial attacks even in settings where the attacker has no direct access to the model being attacked. Such attacks usually rely on the principle of transferability, whereby an attack crafted on a surrogate model tends to transfer to the target model. We show that an ensemble of models with misaligned loss gradients can provide an effective defense against transfer-based attacks. Our key insight is that an adversarial example is less likely to fool multiple models in the ensemble if their loss functions do not increase in a correlated fashion. To this end, we propose Diversity Training, a novel method to train an ensemble of models with uncorrelated loss functions. We show that our method significantly improves the adversarial robustness of ensembles and can also be combined with existing methods to create a stronger defense.
연구 동기 및 목표
- Transfer 기반(블랙박스) 공격에 대한 깊은 신경망의 견고한 배치를 자극한다.
- 앙상블 간 적대적 하위공간의 중첩을 양적화하기 위한 미분 가능 지표를 제안한다.
- 다양한 앙상블를 학습시키기 위한 정규화 항으로 Gradient Alignment Loss(GAL)를 도입한다.
- DivTrain이 공유 적대적 하위공간을 줄이고 강건성을 향상시키며 기존 방어와의 결합으로도 효과를 보임을 시연한다.
- DivTrain을 다른 방어와 결합했을 때 더 강력한 보호를 얻을 수 있음을 보인다.
제안 방법
- 앙상블에 대한 적대적 하위공간과 전이 가능성 위협 모델을 정의한다.
- 코히어런스의 매끄러운 근사치를 통해 앙상블 구성원 간 기울기 정렬을 정량화하기 위한 Gradient Alignment Loss(GAL)를 제안한다.
- 손실 = 평균 교차 엔트로피 + lambda * GAL 형태의 정규화로 GAL을 이용해 앙상블을 훈련한다.
- GAL 계산에서 희소한 기울기 문제를 완화하기 위해 Leaky-ReLU를 사용한다.
- 다양성 DivTrain을 MNIST와 CIFAR-10에서 여러 블랙박스 공격(FGSM, R-FGSM, I-FGSM, MI-FGSM, PGD-CW)에 대해 평가한다.
- DivTrain이 기울기 코히어런스를 낮추고 적대적 하위공간 중첩을 줄이며, Ensemble Adversarial Training과 결합 시 강건성을 향상시킬 수 있음을 보여준다.
실험 결과
연구 질문
- RQ1앙상블 구성원의 적대적 하위공간 중첩을 줄이는 것이 전이 기반 공격에 대한 강건성을 향상시키는가?
- RQ2GAL이 다양한 앙상블 학습에 적용 가능한 미분 가능 정규화 도구가 될 수 있는가?
- RQ3DivTrain이 Ensemble Adversarial Training과 같은 기존 방어와 상호작용하는 방식은 어떠한가?
- RQ4GAL의 기울기 희소성에 activation 선택이 어떤 영향을 주며 이를 완화하는 방법은 무엇인가?
주요 결과
- GAL로 훈련된 다양한 앙상블은 평가된 모든 공격에서 기초 앙상블보다 적대적 예제에서 높은 정확도를 보인다.
- DivTrain과 Ensemble Adversarial Training의 결합은 두 방법만의 조합보다 더 큰 강건성을 제공한다.
- DivTrain과 DivTrain+EnsAdvTrain은 기초/Ens 앙상블보다 일관성(기울기 정렬) 분포가 낮아 적대적 하위공간의 중첩이 감소함을 시사한다.
- GAAS 분석은 DivTrain이 앙상블의 적대적 하위공간 차원을 축소하여 여러 직교한 적대적 방향을 찾을 확률을 감소시킴을 보여준다.
- Leaky-ReLU를 사용하면 GAL 역전파를 방해하는 기울기 희소성 문제를 완화할 수 있다.
- DivTrain은 lambda에 의해 조정 가능한 트레이드오프를 가지며 깨끗한 정확도도 경쟁력 있게 유지한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.