QUICK REVIEW

[논문 리뷰] The Origins and Prevalence of Texture Bias in Convolutional Neural Networks

Katherine L. Hermann, Ting Chen|arXiv (Cornell University)|2019. 11. 20.

Adversarial Robustness in Machine Learning참고 문헌 87인용 수 120

한 줄 요약

이 논문은 ImageNet에서 학습된 CNN이 왜 질감(texture)을 모양(shape)보다 선호하는지 조사하고, 이 편향의 대부분이 데이터 증강에 의해 주도됨을 보여주며, 자연주의적 증강이 형태 기반 분류를 촉진하고 분포 외(out-of-distribution) 성능을 향상시킬 수 있음을 보여준다.

ABSTRACT

Recent work has indicated that, unlike humans, ImageNet-trained CNNs tend to classify images by texture rather than by shape. How pervasive is this bias, and where does it come from? We find that, when trained on datasets of images with conflicting shape and texture, CNNs learn to classify by shape at least as easily as by texture. What factors, then, produce the texture bias in CNNs trained on ImageNet? Different unsupervised training objectives and different architectures have small but significant and largely independent effects on the level of texture bias. However, all objectives and architectures still lead to models that make texture-based classification decisions a majority of the time, even if shape information is decodable from their hidden representations. The effect of data augmentation is much larger. By taking less aggressive random crops at training time and applying simple, naturalistic augmentation (color distortion, noise, and blur), we train models that classify ambiguous images by shape a majority of the time, and outperform baselines on out-of-distribution test sets. Our results indicate that apparent differences in the way humans and ImageNet-trained CNNs process images may arise not primarily from differences in their internal workings, but from differences in the data that they see.

연구 동기 및 목표

ImageNet에서 학습된 CNN의 질감 편향이 아키텍처/학습 절차에 고유한지, 아니면 주로 학습 데이터 때문인지 평가한다.
다양한 데이터 증강, 학습 목표, 그리고 아키텍처가 질감 편향에 어떤 영향을 미치는지 정량화한다.
다양한 분포에서 질감 편향을 줄이고 형태 기반 분류를 개선하는 실용적인 증강 전략을 식별한다.
결정이 질감에 의존하더라도 은닉 표현에 형태 정보가 남아 있는지 조사한다.

제안 방법

혼합 형태-질감 데이터셋(GST, Navon, ImageNet-C)에서 CNN을 학습시켜 형태 대 질감 분류 성능을 비교한다.
다양한 데이터 증강(랜덤 크롭 대 센터 크롭, 색 왜곡, 흐림, 잡음, Sobel 필터링)으로 학습했을 때 질감 편향에 미치는 영향을 평가한다.
다양한 학습 목표(감독 학습 vs 자기지도 학습: Rotation, Exemplar, BigBiGAN, SimCLR)와 기본 아키텍처(AlexNet, ResNet-50)를 테스트한다.
GST 자극을 사용하여 형태 편향을 측정하고 선형 분류기로 은닉 계층에서 형태/질감 정보를 얼마나 해독할 수 있는지 평가한다.
모델 간의 ImageNet 정확도와 관찰된 형태/질감 편향 간의 관계를 분석한다.

실험 결과

연구 질문

RQ1ImageNet에서 학습된 CNN의 질감 편향이 아키텍처/학습 절차에 고유한지, 아니면 주로 학습 데이터 때문인지 평가한다.
RQ2다양한 데이터 증강, 학습 목표, 그리고 아키텍처가 질감 편향에 어떤 영향을 미치는지 정량화한다.
RQ3다양한 분포에서 질감 편향을 줄이고 형태 기반 분류를 개선하는 실용적인 증강 전략을 식별한다.
RQ4결정이 질감에 의존하더라도 은닉 표현에 형태 정보가 남아 있는지 조사한다.

주요 결과

혼합 데이터셋에서 학습된 CNN은 질감과 동일하게 형태로 분류하는 학습이 가능함을 보여주며, 편향이 단지 아키텍처의 특성만은 아님을 시사한다.
랜덤 크롭 증강은 질감 편향을 증가시키고, 센터 크롭 및 자연주의적 증강(색 왜곡, 흐림, 잡음, Sobel 필터링)은 질감 편향을 감소시킨다.
질감 편향을 줄이는 증강은 추가적인 효과를 가지며 비자연적 스타일 전이 기술 없이도 형태 편향 모델을 얻을 수 있다.
자기지도 학습 목표도 질감 편향에 영향을 주지만 증강이 훨씬 더 큰 역할을 하는 경우가 많다; 일부 목표(예: Rotation)는 감독 기준선에 비해 질감 편향을 감소시킨다.
이미지넷 정확도가 높은 아키텍처일수록 질감 편향이 낮은 경향이 있지만, 인간 시각에 맞추도록 설계된 신경망 아키텍처(또는 자기주의 주의)를 사용한 경우 표준 CNN과 일관되게 질감 편향이 다르지 않다.
질감 편향이 있는 모델의 최종 계층에서 형태 정보가 해독되며, 일부 경우 초기 계층에서 질감보다 형태의 해독이 더 잘 되는 경우가 있어 정보 손실이 후반 계층에서 발생함을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.