QUICK REVIEW

[논문 리뷰] Are Perceptually-Aligned Gradients a General Property of Robust Classifiers?

Simran Kaur, Jeremy M. Cohen|arXiv (Cornell University)|2019. 10. 18.

Adversarial Robustness in Machine Learning참고 문헌 26인용 수 38

한 줄 요약

본 논문은 지각적으로 정렬된 그래디언트가 적대적 학습 네트워크뿐만 아니라 무작위 스무딩(가우시안) 강건 분류기에서도 발생함을 보여주며, 이 현상이 강건한 모델의 일반적인 특성일 수 있음을 시사합니다.

ABSTRACT

For a standard convolutional neural network, optimizing over the input pixels to maximize the score of some target class will generally produce a grainy-looking version of the original image. However, Santurkar et al. (2019) demonstrated that for adversarially-trained neural networks, this optimization produces images that uncannily resemble the target class. In this paper, we show that these "perceptually-aligned gradients" also occur under randomized smoothing, an alternative means of constructing adversarially-robust classifiers. Our finding supports the hypothesis that perceptually-aligned gradients may be a general property of robust classifiers. We hope that our results will inspire research aimed at explaining this link between perceptually-aligned gradients and adversarial robustness.

연구 동기 및 목표

지각적으로 정렬된 그래디언트가 강건성 방어와 함께 왜 나타나는지 이해를 촉진한다.
지각적 정렬이 adversarial training을 넘어 무작위 스무딩으로 확장되는지 조사한다.
표적적 적대적 합성을 통해 스무딩된 분류기가 지각적으로 일관된 타깃 클래스 특징을 보인다는 것을 입증한다.

제안 방법

가우시안 스무딩 분류기 ˆhat{f}_{}와 그것의 기본 네트워크 f를 정의하고 활용한다.
기대 로짓을 사용하여 표적 적대적 목적을 형식화하고 가우시안 노이즈에 대한 몬테카를로(Monte Carlo) 기울기 추정으로 최적화한다.
스무딩된 네트워크를 위한 큰- 적대적 예제를 제작하기 위해 Projection Gradient Descent(PGD)를 사용한다.
그래디언트 기반 합성에 대한 두 손실 목표를 비교한다: 교차 엔트로피(L_CE)와 타깃 클래스 최대(L_TCM). 지각 품질을 위해 L_TCM을 선호한다.
클래스별 가우시안에서 가져온 시드 이미지에서 타깃 클래스 점수에 대한 그래디언트 상승으로 시작해 클래스-조건 이미지를 합성한다.

실험 결과

연구 질문

RQ1지각적으로 정렬된 그래디언트가 adversarially trained 모델뿐만 아니라 무작위 스무딩을 통해 구축된 분류기에 대해서도 나타나나요?
RQ2그래디언트의 지각 정렬은 일반적인 강건 분류기의 속성인가요, 아니면 특정 방어에 한정된가요?
RQ3스무딩 매개변수(예: sigma)와 그래디언트 추정 선택이 합성 이미지의 지각 품질에 어떤 영향을 미치나요?
RQ4기본 네트워크의 서로 다른 학습 방식(Gaussian augmentation 대 SmoothAdv)이 스무딩된 분류기의 지각 정렬에 어떤 영향을 미치나요?

주요 결과

지각적으로 정렬된 그래디언트가 특정 클래스를 대상으로 하는 큰- 적대적 예제를 설계할 때 스무딩된 네트워크에서 관찰된다.
스무딩된 분류기를 통해 합성된 이미지는 타깃 클래스와 시각적으로 닮는 경향이 있지만 전체적 일관성은 부족할 수 있다.
이 설정에서 L_TCM 손실은 교차 엔트로피 손실보다 타깃 클래스 이미지의 지각적 일관성을 더 잘 만든다.
스무딩 스케일 sigma를 증가시키면 타깃 클래스의 더 일관되고 단일 인스턴스 표현이 생성되는 경향이 있고, 작은 sigma는 분산된 특징을 초래한다.
그래디언트 추정을 위한 몬테카를로 샘플링(N)을 사용하여 N 최대 20에서 지각적 합성에 충분한 품질을 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.