QUICK REVIEW

[논문 리뷰] Defense Against Adversarial Attacks Using Feature Scattering-based Adversarial Training

Haichao Zhang, Jianyu Wang|arXiv (Cornell University)|2019. 07. 24.

Adversarial Robustness in Machine Learning참고 문헌 70인용 수 118

한 줄 요약

본 논문은 잠재 공간에서의 피처 스캐터링(feature scattering)을 도입하고, 최적 수송(OT)을 활용하여 학습을 위한 협업적이고 비지도적인 적대적 교란을 생성함으로써, 라벨 누출 없이 강건성을 향상시킨다.

ABSTRACT

We introduce a feature scattering-based adversarial training approach for improving model robustness against adversarial attacks. Conventional adversarial training approaches leverage a supervised scheme (either targeted or non-targeted) in generating attacks for training, which typically suffer from issues such as label leaking as noted in recent works. Differently, the proposed approach generates adversarial images for training through feature scattering in the latent space, which is unsupervised in nature and avoids label leaking. More importantly, this new approach generates perturbed images in a collaborative fashion, taking the inter-sample relationships into consideration. We conduct analysis on model robustness and demonstrate the effectiveness of the proposed approach through extensively experiments on different datasets compared with state-of-the-art approaches.

연구 동기 및 목표

적대적 학습에서 라벨 누출과 단일 샘플 교란의 한계를 해결한다.
피처 스캐터링을 통해 샘플 간 관계를 활용하고 로컬 피처 이웃을 교란함으로써(비지도) 학습한다.
OT 기반 교란을 포함하는 이계 최적화 프레임워크를 도입한다.
CIFAR10, CIFAR100 및 SVHN에서 표준 및 강력한 공격에 대해 견고한 성능 향상을 보여준다.

제안 방법

코사인 코스트를 사용하는 깨끗한 특징과 교란된 특징의 경험적 분포 간 OT 거리를 특징 매칭 거리로 정의한다.
교란 예산 하에서 특징 매칭 거리를 최대화하여 적대적 교란을 생성한다(피처 스캐터링).
교란을 깨끗한 샘플과 교란된 샘플 간의 OT를 통한 소프트한 배치 수준 매칭으로 모델링하고, OT 해석기(예: Sinkhorn 또는 IPOT)로 해결한다.
이계 최적화 프레임워크 내에서 교란된 샘플에 대한 크로스 엔트로피 손실을 최소화하여 엔드-투-엔드로 학습한다.
지정된 하이퍼파라미터로 CIFAR10, CIFAR100 및 SVHN에서 Standard, Madry, Bilateral 적대적 학습과 비교한다.

실험 결과

연구 질문

RQ1피처 스캐터링이 전통적인 샘플 단위 적대적 학습을 넘어서 강건성을 향상시키는가?
RQ2OT 기반 소프트 매칭이 교란 생성과 결과 정규화에 어떤 영향을 미치는가?
RQ3최종 강건성에 대한 Sinkhorn vs IPOT 같은 서로 다른 OT 해석기의 영향은 무엇인가?
RQ4메소드가 표준 벤치마크에서 화이트/블랙박스 적대자에 대해 효과적인가?

주요 결과

CIFAR10에서 제안된 방법은 PGD 및 CW 공격하에서 Madry 및 Bilateral보다 더 높은 강건성을 달성한다(예: PGD20: 70.5% vs 44.9%).
제안 방법은 깨끗한 정확도를 강하게 유지하면서(예: CIFAR10 깨끗함 약 90.0%), 공격 강건성을 크게 향상시킨다.
SVHN 결과는 제안된 접근법이 깨끗한 정확도와 PGD/CW 공격에 대한 강력한 강건성을 모두 달성함을 보여준다.
CIFAR100 실험은 PGD 대비 Madry보다 약 20%의 이득, CW 공격 대비 약 10%의 이득을 시현한다.
절삭 연구는 피처 스캐터링이 향상된 강건성의 주요 기여자이며 OT 기반 매칭(OT)이 매칭 스킴 중 최고 성능을 보임을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.