Skip to main content
QUICK REVIEW

[논문 리뷰] Adversarial Weight Perturbation Helps Robust Generalization

Dongxian Wu, Shu‐Tao Xia|arXiv (Cornell University)|2020. 04. 13.
Adversarial Robustness in Machine Learning참고 문헌 74인용 수 206
한 줄 요약

요약: 본 논문은 Adversarial Weight Perturbation (AWP)를 도입합니다. 이는 가중치를 적대적으로 교란하여 가중치 손실 지형을 평탄화하고 적대적 학습에서 강인성을 향상시키는 규제 기법입니다.

ABSTRACT

The study on improving the robustness of deep neural networks against adversarial examples grows rapidly in recent years. Among them, adversarial training is the most promising one, which flattens the input loss landscape (loss change with respect to input) via training on adversarially perturbed examples. However, how the widely used weight loss landscape (loss change with respect to weight) performs in adversarial training is rarely explored. In this paper, we investigate the weight loss landscape from a new perspective, and identify a clear correlation between the flatness of weight loss landscape and robust generalization gap. Several well-recognized adversarial training improvements, such as early stopping, designing new objective functions, or leveraging unlabeled data, all implicitly flatten the weight loss landscape. Based on these observations, we propose a simple yet effective Adversarial Weight Perturbation (AWP) to explicitly regularize the flatness of weight loss landscape, forming a double-perturbation mechanism in the adversarial training framework that adversarially perturbs both inputs and weights. Extensive experiments demonstrate that AWP indeed brings flatter weight loss landscape and can be easily incorporated into various existing adversarial training methods to further boost their adversarial robustness.

연구 동기 및 목표

  • 적대적 학습에서 입력 손실 평탄화 이상으로 강인한 일반화 동기를 부여한다.
  • 가중치 손실 지형의 평탄함과 강인한 일반화 간의 관계를 특징짓는다.
  • 더블 교란(입력과 가중치)을 통해 명시적으로 가중치 손실 지형을 규제하도록 AWP를 제안하고 검증한다.
  • AWP의 호환성과 기존 적대적 학습 방법과의 통합 시 강인성 향상 효과를 입증한다.

제안 방법

  • PGD로 생성된 온더플라이(adversarial on-the-fly) 예제를 사용해 가중치 손실 지형을 특징짓는다.
  • 평탄한 가중치 손실 지형과 더 작은 강인한 일반화 격차 사이의 상관관계를 보인다.
  • 제어 가능한 영역(γ||w_l||) 안에서 가중치 교란 효과를 극대화하도록 Adversarial Weight Perturbation(AWP)을 제안한다.
  • 적대적 입력 교란과 적대적 가중치 교란을 번갈아 수행하는 이중 교란 목표를 최적화한다.
  • perturbed 모델 f_{w+v}를 업데이트한 뒤 중심 가중치 w를 다시 업데이트하는 알고리즘(AT-AWP)을 제공한다.
  • AWP를 TRADES, MART, RST 등 다른 적대적 학습 프레임워크로 확장하되 오버헤드를 최소화한다.

실험 결과

연구 질문

  • RQ1가중치 손실 지형의 평탄함이 적대적 학습 하에서 강인한 일반화 격차와 상관관계가 있는가?
  • RQ2적대적 가중치 교란을 통한 가중치 손실 지형의 명시적 규제가 기존 AT 방법과 결합될 때 강인성을 향상시키는가?
  • RQ3AWP가 다양한 데이터셋, 아키텍처, 위협 모델에 걸쳐 호환되고 이익이 있는가?
  • RQ4AWP가 무작위 가중치 교란 및 다른 규제에 비해 적대적 강인성 향상에 얼마나 기여하는가?

주요 결과

  • 가중치 손실 지형이 더 평탄할수록 적대적 학습 방법들 중에서도 강인한 일반화 격차가 더 작게 나타난다.
  • Adversarial Weight Perturbation(AWP)은 가중치 손실 지형을 명시적으로 평탄화하고 AT, TRADES, MART, RST와 통합될 때 강인성 향상을 제공한다.
  • AWP는 CIFAR-10/ SVHN/CIFAR-100 및 L_infty 및 L2 위협 모델에서 테스트 강인성을 일관되게 개선한다.
  • AWP는 기본 AT 및 비교 방법에 비해 개선을 달성하며 AutoAttack를 포함한 화이트박스 및 블랙박스 공격에서 이득이 나타난다.
  • 절삭 연구(ablation)에서 작은 상대적 가중치 교란(gamma가 약 1e-3에서 5e-3 사이)이 지형을 효과적으로 평탄화하고 강인한 일반화 격차를 감소시킨다.
  • 무작위 가중치 교란과 비교할 때, AWP는 더 강한 적대적 손실 증가 및 더 작은 교란 크기로 더 나은 강인성을 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.