[논문 리뷰] Robust Perception through Analysis by Synthesis.
이 논문은 학습된 클래스 조건부 데이터 분포를 사용하여 분석-합성 기반의 새로운 강건한 분류 모델을 제안하여 MNIST에서 최신 기준의 적대적 공격에 대한 강건성을 달성한다. L0, L2 및 L-infinity 공격에 대해 강력한 저항성을 보이며, 손상된 픽셀 수를 최소화하는 새로운 의사결정 기반 공격을 포함하고, 적대적 예제가 시각적으로 타당하며 클래스 간 경계 쪽으로 이동하는 것으로 나타났다.
Despite much effort, deep neural networks remain highly susceptible to tiny input perturbations and even for MNIST, one of the most common toy datasets in computer vision, no neural network model exists for which adversarial perturbations are large and make semantic sense to humans. We show that even the widely recognized and by far most successful defense by Madry et al. (1) overfits on the L-infinity metric (it's highly susceptible to L2 and L0 perturbations), (2) classifies unrecognizable images with high certainty, (3) performs not much better than simple input binarization and (4) features adversarial perturbations that make little sense to humans. These results suggest that MNIST is far from being solved in terms of adversarial robustness. We present a novel robust classification model that performs analysis by synthesis using learned class-conditional data distributions. We derive bounds on the robustness and go to great length to empirically evaluate our model using maximally effective adversarial attacks by (a) applying decision-based, score-based, gradient-based and transfer-based attacks for several different Lp norms, (b) by designing a new attack that exploits the structure of our defended model and (c) by devising a novel decision-based attack that seeks to minimize the number of perturbed pixels (L0). The results suggest that our approach yields state-of-the-art robustness on MNIST against L0, L2 and L-infinity perturbations and we demonstrate that most adversarial examples are strongly perturbed towards the perceptual boundary between the original and the adversarial class.
연구 동기 및 목표
- MNIST에서 작은, 인지할 수 없는 적대적 편향에 대해 지속적으로 취약한 딥 네트워크의 문제를 해결하기 위해.
- 기존 방어 기법, 특히 Madry et al.의 L-infinity 강건 모델이 진정으로 강건성을 제공한다는 가정을 도전하기 위해.
- 더 나은 강건성을 위해 클래스 조건부 데이터 분포의 생성 모델링 기반으로 새로운 방어 기법을 개발하기 위해.
- 다양한 Lp 노름에 걸쳐 L0, L2 및 L-infinity 공격을 포함한 다양한 적대적 공격을 통해 강건성을 실증적으로 평가하기 위해.
제안 방법
- 모델는 학습된 클래스 조건부 데이터 분포에서 샘플을 생성하여 분류를 이끄는 방식으로 분석-합성 기반의 작업을 수행한다.
- 재구성 기반 의사결정을 가능하게 하기 위해 각 클래스의 데이터 분포를 모델링하기 위해 변동형 오토인코더 유사 프레임워크를 사용한다.
- 적대적 예제의 가능도가 생성 모델 하에서 경계를 정의함으로써 강건성이 분석적으로 도출된다.
- 구조적 취약점을 노출하기 위해, 손상된 픽셀 수(즉, L0)를 최소화하는 데 초점을 맞춘 새로운 의사결정 기반 공격이 설계되었다.
- L0, L2 및 L-infinity 노름 전반에서 기울기 기반, 스코어 기반, 전이 기반 및 의사결정 기반 공격의 조합을 사용하여 모델을 평가하였다.
- 적대적 예제 분석을 통해 원래 클래스와 적대적 클래스 간의 시각적 경계 쪽으로 일관되게 이동하는 것으로 나타났다.
실험 결과
연구 질문
- RQ1기존 방어 기법과 비교해 볼 때, 생성 모델 기반 방어 기법이 MNIST에서 여러 Lp 노름에 걸쳐 뛰어난 강건성을 달성할 수 있는가?
- RQ2이 모델에 대해 생성된 적대적 예제는 인간에게 시각적으로 일관성 있고 의미 있는가?
- RQ3손상된 픽셀 수(L0)를 최소화하는 새로운 의사결정 기반 공격이 이 방어 기법을 효과적으로 우회할 수 있는가?
- RQ4이 모델의 강건성은 진정으로 분포 이해에 기반한 것인지, 특정 공격 유형에 과적합된 것인가?
- RQ5이 모델이 생성한 적대적 예제가 클래스 간 시각적 경계 쪽으로 어느 정도 이동하는가?
주요 결과
- 제안된 모델은 L0, L2 및 L-infinity 적대적 공격에 대해 MNIST에서 최신 기준의 강건성을 달성한다.
- Madry et al.의 방어 기법은 명성에도 불구하고 L-infinity 측정치에서 과적합되며, L2 및 L0 공격에서는 실패한다.
- 모델은 인식 불가능한 입력을 낮은 신뢰도로 분류함으로써 기존 방어 기법보다 더 나은 校정( calibration )을 보여준다.
- 이 모델에 대해 생성된 적대적 예제는 원래 클래스와 적대적 클래스 간의 시각적 경계 쪽으로 강하게 이동한다.
- 새로운 의사결정 기반 공격은 손상된 픽셀 수(L0)를 성공적으로 최소화하고 방어를 효과적으로 우회하여, 최소한의 편향에서의 모델의 강건성을 입증한다.
- 입력 이진화는 일부 방어 기법과 유사한 성능을 보이며, 현재의 강건성 주장이 과장되어 있을 수 있음을 시사한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.