Skip to main content
QUICK REVIEW

[논문 리뷰] Instance adaptive adversarial training: Improved accuracy tradeoffs in neural nets

Yogesh Balaji, Tom Goldstein|arXiv (Cornell University)|2019. 10. 17.
Adversarial Robustness in Machine Learning참고 문헌 21인용 수 66
한 줄 요약

본 논문은 인스턴스 적응형 적대적 학습(IAAT)을 제안합니다. 이 방법은 학습 중 샘플별 섭동 반경을 할당하여 깨끗한 정확도를 향상시키되 견고성은 비슷하게 유지하고, CIFAR-10/100 및 ImageNet에서 이를 시연합니다.

ABSTRACT

Adversarial training is by far the most successful strategy for improving robustness of neural networks to adversarial attacks. Despite its success as a defense mechanism, adversarial training fails to generalize well to unperturbed test set. We hypothesize that this poor generalization is a consequence of adversarial training with uniform perturbation radius around every training sample. Samples close to decision boundary can be morphed into a different class under a small perturbation budget, and enforcing large margins around these samples produce poor decision boundaries that generalize poorly. Motivated by this hypothesis, we propose instance adaptive adversarial training -- a technique that enforces sample-specific perturbation margins around every training sample. We show that using our approach, test accuracy on unperturbed samples improve with a marginal drop in robustness. Extensive experiments on CIFAR-10, CIFAR-100 and Imagenet datasets demonstrate the effectiveness of our proposed approach.

연구 동기 및 목표

  • 표준 적대적 학습에서의 견고성-정확도 트레이드오프와 균일한 섭동 반경으로 인한 한계에 대해 동기를 부여합니다.
  • IAAT를 제안하여 샘플별 섭동 반경을 할당함으로써 견고성을 유지하면서 깨끗한 정확도를 더 잘 보존합니다.
  • IAAT가 데이터셋(CIFAR-10/100, ImageNet) 전반에서 자연스러운 테스트 정확도를 개선하고 견고성 손실은 미미하게 나타난다는 것을 경험적으로 보여줍니다.
  • 해석 가능성에 대한 통찰을 제공합니다: 작은 반경은 경계 모호성과 근처의 충돌 샘플과 상관되고, 큰 반경은 명확한 클래스를 나타냅니다.
  • 이전에 제안된 적응 마진 연구와 IAAT를 비교하고 다양한 테스트 섭동에 대한 견고성을 분석합니다.

제안 방법

  • 샘플별 섭동 예산을 가지는 min-max 목적함수로 IAAT를 형식화합니다: min_theta max_{||delta_i||_infty <= epsilon_i} Loss( x_i + delta_i, y_i ).
  • 샘플별 epsilon으로 전환하기 전의 균일한 epsilon를 사용하는 워밍업 기간으로 초기화합니다.
  • 각 샘플에 대한 적대적 샘플을 만든 후 PGD가 성공하는지 실패하는지에 따라 epsilon_i를 조정합니다 (epsilon_i-- 또는 epsilon_i++), 이를 에폭에 걸쳐 메모리 메커니즘으로 스무딩합니다.
  • 알고리즘 1은 적대적 예제 생성과 파라미터 업데이트를 번갈아 수행하는 학습 루프를 제공합니다.
  • 알고리즘 2는 이전 값 주위의 이산 탐색을 통해 샘플별 epsilon를 업데이트하고 안정화합니다.
  • 이 방법은 클래스 다발이 잘 분리되는 영역에서 더 큰 반경을 선택하고 의사결정 경계 근처에서는 더 작은 반경을 선택하는 것을 강조하여 더 나은 트레이드오프를 제공합니다.
  • 실험은 CIFAR-10/100에서 ResNet 및 WideResNet 아키텍처와 ImageNet에서 ResNet 변형을 포함하여 자연 정확도, 화이트박스 및 전이 견고성, 손상 견고성을 평가합니다.

실험 결과

연구 질문

  • RQ1표준 균일 반경 적대적 학습과 비교하여 고정된 견고성 수준에서 샘플별 적대적 반경을 강제하는 것이 깨끗한 정확도를 향상시키나요?
  • RQ2IAAT가 표준 적대적 학습에서 관찰되는 전통적 견고성-정확도 파레토 프런티어를 깨뜨릴 수 있나요?
  • RQ3학습된 샘플별 반경은 데이터 모호성과 클래스 경계에 대해 얼마나 해석 가능한가요?
  • RQ4IAAT의 이득은 데이터셋(CIFAR-10/100, ImageNet)과 아키텍처 전반에 일반화되나요?
  • RQ5워밍업 및 샘플별 반경의 동적이 보이지 않는 손상에 대한 견고성에 미치는 영향은 무엇인가요?

주요 결과

  • IAAT는 CIFAR-10/100에서 표준 적대적 학습과 비슷한 견고성으로 자연 테스트 정확도를 향상시킵니다(예: 비슷하거나 약간 감소된 적대적 견고성을 가진 눈에 띄는 깨끗한 정확도 향상).
  • IAAT는 보이지 않는 이미지 손상에 대한 견고성을 제공하여 일반화가 개선됨을 시사합니다.
  • ImageNet에서는 IAAT가 ResNet 모델 전반에 걸쳐 자연 정확도를 크게 높이며(적대적 학습 대비 +10% 이상), 낮은 섭동 강도에서 경쟁력 있는 적대적 견고성을 유지하고, 높은 epsilon에서 일부 트레이드오프가 있습니다.
  • 샘플별 epsilon은 인간의 모호성 개념과 상관관계가 있습니다: 경계 근처 샘플은 더 작은 epsilon을 받고, 모호하지 않은 샘플은 더 큰 epsilon을 받습니다.
  • 워밍업은 자연 정확도에서 약간의 하락으로 견고성을 향상시키고, 워밍업 없이 IAAT도 더 나은 트레이드오프를 나타내며, 워밍업은 일반적으로 CIFAR-100에서 견고성을 더 돕습니다.
  • IAAT는 더 강한 공격에서도 Mixup-적대적 학습을 능가할 수 있으며, 자연 정확도를 유지하면서 견고성을 보존합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.