QUICK REVIEW

[논문 리뷰] ImageNet-trained CNNs are biased towards texture; increasing shape bias improves accuracy and robustness

Robert Geirhos, Patricia Rubisch|arXiv (Cornell University)|2018. 11. 29.

Face Recognition and Perception인용 수 664

한 줄 요약

ImageNet CNN은 모양보다 질감에 의존한다; Stylized-ImageNet에서의 학습은 모양 편향을 유도하여 정확도와 강건성을 향상시키며, 질감 기반 표현을 넘어서는 이점을 보여준다.

ABSTRACT

Convolutional Neural Networks (CNNs) are commonly thought to recognise objects by learning increasingly complex representations of object shapes. Some recent studies suggest a more important role of image textures. We here put these conflicting hypotheses to a quantitative test by evaluating CNNs and human observers on images with a texture-shape cue conflict. We show that ImageNet-trained CNNs are strongly biased towards recognising textures rather than shapes, which is in stark contrast to human behavioural evidence and reveals fundamentally different classification strategies. We then demonstrate that the same standard architecture (ResNet-50) that learns a texture-based representation on ImageNet is able to learn a shape-based representation instead when trained on "Stylized-ImageNet", a stylized version of ImageNet. This provides a much better fit for human behavioural performance in our well-controlled psychophysical lab setting (nine experiments totalling 48,560 psychophysical trials across 97 observers) and comes with a number of unexpected emergent benefits such as improved object detection performance and previously unseen robustness towards a wide range of image distortions, highlighting advantages of a shape-based representation.

연구 동기 및 목표

ImageNet에서 학습된 CNN이 객체 인식에서 질감보다 모양에 더 의존하는지 평가한다.
질감-모양 큐-충돌 자극을 사용하여 인간과 CNN에서 질감 대 모양 편향을 정량적으로 비교한다.
Stylized-ImageNet에서의 학습이 CNN을 모양 기반 표현으로 이동시킬 수 있는지 조사한다.
모양 편향이 분류 성능 및 왜곡 및 전이 작업에 대한 강건성에 어떤 영향을 미치는지 평가한다.

제안 방법

스타일 전송으로 생성된 질감-모양 큐-충돌 이미지를 사용하여 동일한 자극에 대해 인간과 CNN의 분류를 비교한다.
이미지넷(ImageNet)과 Stylized-ImageNet(SIN)에서 CNN(ResNet-50 및 기타)을 학습시켜 편향 변화를 평가한다.
원본, 흑백, 실루엣, 에지, 질감 및 큐-충돌 이미지에서 성능을 평가한다.
SIN과 IN 학습 regime을 결합하여 Shape-ResNet이라는 모양 강화 아키텍처를 생성하고 이를 테스트한다.
ImageNet-C 스타일의 섭동을 포함한 일반적인 왜곡 및 손상에 대한 강건성을 평가한다.

실험 결과

연구 질문

RQ1ImageNet에서 학습된 CNN이 질감 편향을 보이는가, 모양을 선호하는 인간 관찰자와는 대조적인가?
RQ2Stylized-ImageNet에서의 학습이 CNN을 모양 기반 표현으로 이동시켜 질감 편향을 줄일 수 있는가?
RQ3모양 편향 모델이 질감 편향 모델에 비해 객체 탐지 및 왜곡에 대한 강건성을 향상시키는가?
RQ4SIN과 IN 데이터를 결합하는 것이 정확도와 강건성을 더욱 높이는가, 그리고 이것이 다운스트림 작업으로의 전이에 어떻게 반영되는가?

주요 결과

ImageNet에서 학습된 CNN은 큐-충돌 이미지에서 강한 질감 편향을 보이는 반면, 인간은 주로 모양에 의존한다.
Stylized-ImageNet에서의 학습은 CNN의 모양 편향을 극적으로 증가시킨다(예: ResNet-50에서 22%에서 81%로 모양 편향 증가).
SIN으로 학습된 모델은 IN에 일반화가 떨어지지만 SIN 특성은 ImageNet으로의 전이에는 잘 작용하여 모양 중심 표현의 이점을 시사한다.
Shape-ResNet(SIN+IN과 IN 미세조정 포함)은 일반적인 ResNet보다 ImageNet 상위-1/상위-5 정확도가 높고 객체 탐지 성능(Pascal VOC 및 MS COCO)도 향상된다.
SIN-학습 네트워크는 다양한 왜곡에 대해 더 큰 강건성을 보이며 많은 섭동에서 인간 수준의 강건성에 가까워지거나 이를 능가한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.