QUICK REVIEW

[논문 리뷰] Interpreting Adversarially Trained Convolutional Neural Networks

Tianyuan Zhang, Zhanxing Zhu|ePrints Soton (University of Southampton)|2019. 05. 23.

Adversarial Robustness in Machine Learning인용 수 75

한 줄 요약

논문은 AT-CNNs를 체계적으로 해석하여 일반적으로 학습된 CNN보다 형태 편향 표현을 더 개발하고 텍스처 편향은 덜하다는 것을 salience maps와 특수 변환 데이터셋을 사용해 보여준다.

ABSTRACT

We attempt to interpret how adversarially trained convolutional neural networks (AT-CNNs) recognize objects. We design systematic approaches to interpret AT-CNNs in both qualitative and quantitative ways and compare them with normally trained models. Surprisingly, we find that adversarial training alleviates the texture bias of standard CNNs when trained on object recognition tasks, and helps CNNs learn a more shape-biased representation. We validate our hypothesis from two aspects. First, we compare the salience maps of AT-CNNs and standard CNNs on clean images and images under different transformations. The comparison could visually show that the prediction of the two types of CNNs is sensitive to dramatically different types of features. Second, to achieve quantitative verification, we construct additional test datasets that destroy either textures or shapes, such as style-transferred version of clean data, saturated images and patch-shuffled ones, and then evaluate the classification accuracy of AT-CNNs and normal CNNs on these datasets. Our findings shed some light on why AT-CNNs are more robust than those normally trained ones and contribute to a better understanding of adversarial training over CNNs from an interpretation perspective.

연구 동기 및 목표

AT-CNN이 무엇을 학습하고 일반적으로 학습된 CNN보다 왜 더 견고한지 조사한다.
깨끗한 이미지와 변형된 이미지에서 시각적 주의도(salience maps)를 사용하여 AT-CNN과 표준 CNN을 비교한다.
설계된 테스트 데이터셋을 통해 텍스처- 대 형태 보존 왜곡에 대한 민감도를 정량적으로 평가한다.

제안 방법

AT-CNN과 표준 CNN의 특징 민감도를 시각화하기 위해 (Grad 및 SmoothGrad) 주목도 맵을 사용한다.
텍스처 및 형태를 왜곡하는 테스트 세트를 구성(스타일라이즈드 이미지, 채도 증가 이미지, 패치 섞기 이미지)하여 일반화 격차를 정량화한다.
다양한 적대적 학습(PGD와 FGSM) 및 강도 하에서 세 가지 데이터셋(CIFAR-10, Tiny ImageNet, Caltech-256)에서 모델을 평가한다.
일반화를 제어하기 위해 과소적합 기준선으로 견고성과 정확성을 비교한다.

실험 결과

연구 질문

RQ1일반적으로 학습된 CNN에 비해 AT-CNN이 텍스처 정보보다 형태 정보에 더 의존하는가?
RQ2다른 특징은 유지된 채 텍스처나 형태가 파괴될 때 AT-CNN과 표준 CNN의 성능은 어떠한가?
RQ3주목도 맵이 AT-CNN과 일반 CNN 사이에서 질적으로 다른 특징 민감도를 드러낼 수 있는가?
RQ4적대적 학습이 형태나 에지와 같은 장거리 구조에 대한 편향으로 모델의 편향을 이동시키는가?

주요 결과

AT-CNN은 표준 CNN보다 더 희박하고 윤곽에 초점을 맞춘 주목도 맵을 생성하며, 형태/에지를 더 강조한다.
스타일화된(텍스처를 바꾸는) 이미지에서 AT-CNN은 표준 CNN보다 더 높은 정확도를 유지하여 더 강한 형태 편향을 시사한다.
텍스처/ 포화 왜곡하에서 AT-CNN은 성능 저하가 더 작아져 지역 텍스처 정보 의존도가 줄어들었음을 시사한다.
패치 셔플링(모양/에지 붕괴)은 AT-CNN의 신뢰도와 정확성을 크게 감소시키나 표준 CNN은 비교적 견고하게 남아 있어 AT-CNN이 형태에 더 의존한다는 것을 보여준다.
데이터셋 전반에 걸쳐 더 높은 적대적 강건성은 형태/에지 특징에 대한 더 큰 민감도와 텍스처 의존도 감소와 상관관계가 있다.
이 연구는 적대적 학습으로 인한 강건성이 텍스처 신호가 아닌 긴 범위의 형태 기반 표현 학습과 연관되어 있음을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.