[논문 리뷰] Are Perceptually-Aligned Gradients a General Property of Robust Classifiers?
본 논문은 지각적으로 정렬된 그래디언트가 적대적 학습 네트워크뿐만 아니라 무작위 스무딩(가우시안) 강건 분류기에서도 발생함을 보여주며, 이 현상이 강건한 모델의 일반적인 특성일 수 있음을 시사합니다.
For a standard convolutional neural network, optimizing over the input pixels to maximize the score of some target class will generally produce a grainy-looking version of the original image. However, Santurkar et al. (2019) demonstrated that for adversarially-trained neural networks, this optimization produces images that uncannily resemble the target class. In this paper, we show that these "perceptually-aligned gradients" also occur under randomized smoothing, an alternative means of constructing adversarially-robust classifiers. Our finding supports the hypothesis that perceptually-aligned gradients may be a general property of robust classifiers. We hope that our results will inspire research aimed at explaining this link between perceptually-aligned gradients and adversarial robustness.
연구 동기 및 목표
- 지각적으로 정렬된 그래디언트가 강건성 방어와 함께 왜 나타나는지 이해를 촉진한다.
- 지각적 정렬이 adversarial training을 넘어 무작위 스무딩으로 확장되는지 조사한다.
- 표적적 적대적 합성을 통해 스무딩된 분류기가 지각적으로 일관된 타깃 클래스 특징을 보인다는 것을 입증한다.
제안 방법
- 가우시안 스무딩 분류기 ˆhat{f}_{ }와 그것의 기본 네트워크 f를 정의하고 활용한다.
- 기대 로짓을 사용하여 표적 적대적 목적을 형식화하고 가우시안 노이즈에 대한 몬테카를로(Monte Carlo) 기울기 추정으로 최적화한다.
- 스무딩된 네트워크를 위한 큰- 적대적 예제를 제작하기 위해 Projection Gradient Descent(PGD)를 사용한다.
- 그래디언트 기반 합성에 대한 두 손실 목표를 비교한다: 교차 엔트로피(L_CE)와 타깃 클래스 최대(L_TCM). 지각 품질을 위해 L_TCM을 선호한다.
- 클래스별 가우시안에서 가져온 시드 이미지에서 타깃 클래스 점수에 대한 그래디언트 상승으로 시작해 클래스-조건 이미지를 합성한다.
실험 결과
연구 질문
- RQ1지각적으로 정렬된 그래디언트가 adversarially trained 모델뿐만 아니라 무작위 스무딩을 통해 구축된 분류기에 대해서도 나타나나요?
- RQ2그래디언트의 지각 정렬은 일반적인 강건 분류기의 속성인가요, 아니면 특정 방어에 한정된가요?
- RQ3스무딩 매개변수(예: sigma)와 그래디언트 추정 선택이 합성 이미지의 지각 품질에 어떤 영향을 미치나요?
- RQ4기본 네트워크의 서로 다른 학습 방식(Gaussian augmentation 대 SmoothAdv)이 스무딩된 분류기의 지각 정렬에 어떤 영향을 미치나요?
주요 결과
- 지각적으로 정렬된 그래디언트가 특정 클래스를 대상으로 하는 큰- 적대적 예제를 설계할 때 스무딩된 네트워크에서 관찰된다.
- 스무딩된 분류기를 통해 합성된 이미지는 타깃 클래스와 시각적으로 닮는 경향이 있지만 전체적 일관성은 부족할 수 있다.
- 이 설정에서 L_TCM 손실은 교차 엔트로피 손실보다 타깃 클래스 이미지의 지각적 일관성을 더 잘 만든다.
- 스무딩 스케일 sigma를 증가시키면 타깃 클래스의 더 일관되고 단일 인스턴스 표현이 생성되는 경향이 있고, 작은 sigma는 분산된 특징을 초래한다.
- 그래디언트 추정을 위한 몬테카를로 샘플링(N)을 사용하여 N 최대 20에서 지각적 합성에 충분한 품질을 제공한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.