[논문 리뷰] The Robust Manifold Defense: Adversarial Training using Generative Models
이 논문은 spanner(GAN/VAEs)를 사용하여 잠재 공간에서 가깝지만 분류기 출력이 다른 적대적 쌍을 생성하는 강력한 잠재 공간 공격을 제시하고, DefenseGAN을 우회하며 새로운 최소-최대 adversarial 학습 프레임워크를 통해 MNIST 강건성을 향상시킨다.
We propose a new type of attack for finding adversarial examples for image classifiers. Our method exploits spanners, i.e. deep neural networks whose input space is low-dimensional and whose output range approximates the set of images of interest. Spanners may be generators of GANs or decoders of VAEs. The key idea in our attack is to search over latent code pairs to find ones that generate nearby images with different classifier outputs. We argue that our attack is stronger than searching over perturbations of real images. Moreover, we show that our stronger attack can be used to reduce the accuracy of Defense-GAN to 3\%, resolving an open problem from the well-known paper by Athalye et al. We combine our attack with normal adversarial training to obtain the most robust known MNIST classifier, significantly improving the state of the art against PGD attacks. Our formulation involves solving a min-max problem, where the min player sets the parameters of the classifier and the max player is running our attack, and is thus searching for adversarial examples in the {\em low-dimensional} input space of the spanner. All code and models are available at \url{https://github.com/ajiljalal/manifold-defense.git}
연구 동기 및 목표
- 실제 데이터 분포를 근사하는 저차원 잠재 공간(spanners)을 활용해 더 강력한 적대적 공격의 동기를 제시한다.
- 작은 잠재 거리(distances)를 유지하면서 출력 차이를 최대화하도록 잠재 코드 z, z'에 대해 max-min 문제로 강력한 공격을 제시한다.
- 이 공격을 적대적 학습과 결합해 MNIST에서 최첨단 강건성을 달성하는 방법을 보여준다.
- 이 방법이 DefenseGAN을 완전히 우회할 수 있음을 보이고, 적대적 방어를 개선하는 데 적용 가능하다는 것을 보인다.
제안 방법
- 잠재 공간 G: R^k -> R^n의 영역이 데이터 매니폴드를 근사하도록 정의한다.
- ||G(z) - G(z')||_2^2 <= (2η+ε)^2 제약을 갖는 z, z'에 대한 최대-최소 문제로 강력한 공격을 형식화한다.
- 분류기 정확도와 공격 강도를 균형화하는 견고한 최소-최대 목표식(inf_θ μ(sup_{z,z'} L(Cθ(G(z)), Cθ(G(z')))) + (1-μ) 학습 손실)을 도입한다.
- latent-space 공격이 near-real 이미지 쌍을 생성해 분류기를 혼동시킬 수 있음을 증명해 DefenseGAN을 우회한다.
- 강력한 공격을 이용한 적대적 학습을 MNIST와 CelebA에 적용해 white-box ℓ2-제한 perturbation에 대한 강건성을 향상시킨다.
- Madry et al. 및 TRADES와의 비교 실험 결과를 제시한다.
실험 결과
연구 질문
- RQ1잠재 공간의 과강력한 공격이 생성 스패너의 영역에서 전통적인扰动보다 더 강력한 적대적 예제를 생산할 수 있는가?
- RQ2이러한 잠재 공간 공격을 적대적 학습에 통합하면 MNIST와 CelebA에서 기존 방법들(Madry, TRADES)보다 더 강건성을 달성할 수 있는가?
- RQ3DefenseGAN, INC 등과 같이 입력을 스패너에 투영하는 방어를 우회하는 잠재 공간 공격의 한계는 어느 정도인가?
- RQ4저차원 매니폴드로의 공격 탐색 공간 축소가 적대적 학습의 강건한 최적화의 효율성과 효과를 개선하는가?
주요 결과
- 과강력한 잠재 공간 공격은 DefenseGAN의 효과를 크게 감소시켜 설정에서 약 3% 정확도 수준까지 낮춘다.
- 과강력한 공격을 적대적 학습과 결합하면 MNIST의 white-box PGD 공격에 대한 강건성을 향상시키며 특정 설정에서 최대 96.26%의 적대적 정확도를 달성한다.
- ℓ2 반경이 1.5인 경우 TRADES 기반 베이스라인 대비 MNIST에서 강건성 개선이 나타나 96.26% 대 91.88%를 달성한다.
- δ가 2.5까지의 MNIST에서 일부 베이스라인이 저하하는 동안 이 방법은 높은 강건성을 유지한다(약 95%+).
- 잠재 공간 공격은 의사 결정 경계 근처에서 자연스러운 불확실성을 보이는 강건한 분류기를 학습시킬 수 있음을 MNIST 및 CelebA에서 시연한다.
- 이 방법은 이전 접근보다 DefenseGAN을 더 효과적으로 방해할 수 있어 spanner 기반 방어에 대한 더 넓은 시사점을 제시한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.