Skip to main content
QUICK REVIEW

[논문 리뷰] Improving Adversarial Robustness via Promoting Ensemble Diversity

Tianyu Pang, Kun Xu|arXiv (Cornell University)|2019. 01. 25.
Adversarial Robustness in Machine Learning인용 수 191
한 줄 요약

요약: 이 논문은 비최대 예측 간의 다양성을 촉진함으로써 앙상블을 학습시키는 적응적 다양성 촉진(ADP) 정규화를 도입하여 악의적 공격에 대한 강인성을 향상시키는 동시에 정상 데이터에서의 정확도를 유지한다.

ABSTRACT

Though deep neural networks have achieved significant progress on various tasks, often enhanced by model ensemble, existing high-performance models can be vulnerable to adversarial attacks. Many efforts have been devoted to enhancing the robustness of individual networks and then constructing a straightforward ensemble, e.g., by directly averaging the outputs, which ignores the interaction among networks. This paper presents a new method that explores the interaction among individual networks to improve robustness for ensemble models. Technically, we define a new notion of ensemble diversity in the adversarial setting as the diversity among non-maximal predictions of individual members, and present an adaptive diversity promoting (ADP) regularizer to encourage the diversity, which leads to globally better robustness for the ensemble by making adversarial examples difficult to transfer among individual members. Our method is computationally efficient and compatible with the defense methods acting on individual networks. Empirical results on various datasets verify that our method can improve adversarial robustness while maintaining state-of-the-art accuracy on normal examples.

연구 동기 및 목표

  • 앙상블 모델의 강인성 도전 과제를 단일 네트워크 방어를 넘어 모티베이션한다.
  • 적대적 설정에 적합한 새로운 앙상블 다양성 측정치를 정의한다(비최대 예측).
  • 앙상블 엔트로피와 다양성 항을 결합한 적응적 다양성 촉진(ADP) 정규화를 개발한다.
  • ADP 학습이 효율적인 계산과 기존 방어와의 호환성을 유지하며 더 강한 앙상블 강인성을 낳는다는 것을 보여준다.

제안 방법

  • 정규화된 비최대 예측의 그램 행렬의 행렬식으로 앙상블 다양성을 정의한다.
  • 두 항으로 구성된 ADP 정규화: 앙상블 엔트로피와 다양성의 로그-결정값(LED).
  • 앙상블 교차 엔트로피(ECE) 손실과 ADP 정규화를 결합한 증강 목표를 사용해 모든 앙상블 구성원을 공동으로 학습한다.
  • 하이퍼파라미터 alpha(엔트로피)와 beta(LED)가 최적 해에 어떤 영향을 미치는지 이론적으로 분석한다.
  • MNIST, CIFAR-10, CIFAR-100에서 실험을 통해 적대적 공격 및 다른 방어와의 호환성을 입증한다.

실험 결과

연구 질문

  • RQ1앙상블에서 비최대 예측 간의 다양성을 촉진하면 앙상블 구성원 간의 전이 가능성으로 인한 적대적 예시의 전달성을 줄일 수 있는가?
  • RQ2정규화_ADP가 정밀도를 해치지 않으면서 강인성을 향상시키려면 어떻게 설계되어야 하는가?
  • RQ3최적 예측을 형성하는 데 있어 앙상블 엔트로피와 LED 항의 이론적 역할은 무엇인가?
  • RQ4ADP 접근법이 개별 네트워크에 작용하는 방어와 확장 가능하고 호환되는가?
  • RQ5표준 벤치마크에서 일반 white-box 적대적 공격에 대해 ADP가 어떻게 수행되는가?

주요 결과

  • ADP 학습은 MNIST, CIFAR-10, CIFAR-100에서 FGSM, BIM, PGD, MIM, JSMA, C&W, EAD 등 다양한 공격에 대한 앙상블 강건성을 크게 향상시킨다.
  • 정상 예시에 대한 앙상블 정확도는 유지되거나 향상되고, 개별 네트워크는 베이스라인에 비해 더 높은 오차율을 보일 수 있다.
  • 비최대 예측이 더 다양해지고, 시각적으로도 앙상블 구성원 간 특징 분포가 다르게 나타난다(t-SNE로 보임).
  • ADP는 계산적으로도 효율적이며(K가 커질수록 약 10% 느려짐), 다른 방어인 적대적 학습과 직교적인 방어로서 호환된다.
  • LED 구성요소만으로는 엔트로피 항이 없으면 정규화가 실패할 수 있어, 효과적 최적화를 위해 두 구성요소의 필요성을 입증한다.
  • 도해상으로 (L−1)가 K의 배수일 때 비최대 예측이 서로 직교하게 만들어 구조적 다양성을 유도할 수 있음을 보이는 보조정리들이 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.