Skip to main content
QUICK REVIEW

[논문 리뷰] Robust Local Features for Improving the Generalization of Adversarial Training

Chuanbiao Song, Kun He|arXiv (Cornell University)|2019. 09. 23.
Adversarial Robustness in Machine Learning참고 문헌 31인용 수 34
한 줄 요약

논문은 RLFAT를 소개합니다. 이는 Adversarial Training 중 Random Block Shuffle를 통해 로버스트 로컬 피처를 학습하고, 이 지식을 일반적인 adversarial training으로 이전 transferring하여 데이터셋 전반에서 적대적 강인성과 표준 일반화 모두를 향상시킵니다.

ABSTRACT

Adversarial training has been demonstrated as one of the most effective methods for training robust models to defend against adversarial examples. However, adversarially trained models often lack adversarially robust generalization on unseen testing data. Recent works show that adversarially trained models are more biased towards global structure features. Instead, in this work, we would like to investigate the relationship between the generalization of adversarial training and the robust local features, as the robust local features generalize well for unseen shape variation. To learn the robust local features, we develop a Random Block Shuffle (RBS) transformation to break up the global structure features on normal adversarial examples. We continue to propose a new approach called Robust Local Features for Adversarial Training (RLFAT), which first learns the robust local features by adversarial training on the RBS-transformed adversarial examples, and then transfers the robust local features into the training of normal adversarial examples. To demonstrate the generality of our argument, we implement RLFAT in currently state-of-the-art adversarial training frameworks. Extensive experiments on STL-10, CIFAR-10 and CIFAR-100 show that RLFAT significantly improves both the adversarially robust generalization and the standard generalization of adversarial training. Additionally, we demonstrate that our models capture more local features of the object on the images, aligning better with human perception.

연구 동기 및 목표

  • adversarial training에서 로버스트 로컬 피처가 일반화 격차에 어떤 영향을 미치는지 조사하는 것을 동기화한다.
  • 로버스트 로컬 피처를 학습하고 이를 표준 adversarial training으로 전이하는 방법을 제안한다.
  • 방법이 최첨단 적대적 프레임워크(PGDAT 및 TRADES)와 호환됨을 입증한다.
  • 여러 데이터셋에서 적대적 강인성과 표준 정확도 모두에서 실증적 향상을 보인다.

제안 방법

  • Adversarial training 중 글로벌 구조를 방해하고 로컬 피처는 보존하기 위해 Random Block Shuffle(RBS)을 도입한다.
  • RBS로 변형된 적대적 샘플에서 학습하여 Adversarial Training을 위한 Robust Local Features(RLFAT)를 정의한다.
  • RBS-변형 입력과 원래의 적대적 입력 간의 고수준 피처를 정렬하기 위해 Robust Local Feature Transfer(RLFT)를 제안한다.
  • PGDAT 및 TRADES 변형에 대해 RLFL과 RLFT를 end-to-end RLFAT 손실 함수에 통합한다.
  • RBSAT와 RLFT를 결합한 엔드투엔드 학습 알고리즘(Algorithm 1)을 제공한다.
  • 화이트박스 공격(PGD, CW) 및 블랙박스 공격(NAttack)에 대해 STL-10, CIFAR-10, CIFAR-100에서 평가한다.

실험 결과

연구 질문

  • RQ1적대적 학습 중 학습된 로버스트 로컬 피처가 글로벌 구조 편향 피처보다 보지 않은 데이터에 더 잘 일반화할 수 있는가?
  • RQ2RBS를 통해 로버스트 로컬 피처를 학습하고 이를 일반적인 적대적 학습으로 전이하는 것이 강인성과 표준 정확도 모두를 향상시키는가?
  • RQ3RLFAT가 기존의 적대적 학습 프레임워크(PGDAT 및 TRADES) 및 데이터셋 규모와 호환되는가?
  • RQ4RLFAT로 학습된 모델의 주목도 맵이 인간 지각과 더 잘 일치하는가?
  • RQ5밝기 및 감마와 같은 분포 편향에 대한 성능에 Robust Local Feature Transfer의 영향은 무엇인가?

주요 결과

  • RLFAT는 STL-10, CIFAR-10, CIFAR-100 전반에서 PGDAT 및 TRADES보다 일관되게 적대적 강인성과 표준 정확도를 향상시킨다.
  • RLFAT_T는 테스트 데이터셋에서 TRADES보다 더 높은 적대적 강인 일반화와 표준 일반화를 달성한다.
  • RLFAT_P도 robustness에서 PGDAT보다 우수하고 표준 정확도도 우수한 상태를 유지한다.
  • RLFAT 모델의 주목도 맵은 로컬 피처에 더 큰 비중을 두고 인간 지각과 더 일치함을 시사한다.
  • 손실-민감도 분석은 밝기와 감마 분포 편향하에서 RLFAT가 더 매끈한 손실을 유도함을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.