QUICK REVIEW

[논문 리뷰] Why do deep convolutional networks generalize so poorly to small image transformations?

Aharon Azulay, Yair Weiss|arXiv (Cornell University)|2018. 05. 30.

Domain Adaptation and Few-Shot Learning인용 수 299

한 줄 요약

이 논문은 현대 CNN이 one-pixel 번역이나 스케일링과 같은 아주 작은 이미지 변화에 취약하다는 것을 정량화하고, 합성곱 아키텍처와 데이터 증강이 불변성을 보장하지 못하는 이유를 분석하며, 부분적인 해결책으로 안티앨라이어싱(antialiasing)과 더 많은 증강 등을 제시한다.

ABSTRACT

Convolutional Neural Networks (CNNs) are commonly assumed to be invariant to small image transformations: either because of the convolutional architecture or because they were trained using data augmentation. Recently, several authors have shown that this is not the case: small translations or rescalings of the input image can drastically change the network's prediction. In this paper, we quantify this phenomena and ask why neither the convolutional architecture nor data augmentation are sufficient to achieve the desired invariance. Specifically, we show that the convolutional architecture does not give invariance since architectures ignore the classical sampling theorem, and data augmentation does not give invariance because the CNNs learn to be invariant to transformations only for images that are very similar to typical images from the training set. We discuss two possible solutions to this problem: (1) antialiasing the intermediate representations and (2) increasing data augmentation and show that they provide only a partial solution at best. Taken together, our results indicate that the problem of insuring invariance to small image transformations in neural networks while preserving high accuracy remains unsolved.

연구 동기 및 목표

현대 CNN의 작은 이미지 변형에 대한 불변성 부족을 정량화한다.
합성곱, 하위샘플링 등의 아키텍처 선택과 데이터 증강이 취약성에 어떻게 기여하는지 조사한다.
현재 CNN 설계나 학습 관행이 시프트-불변성을 보장하지 않는 이유를 설명한다.
내제된 표현의 안티앨라이어싱 및 확대된 데이터 증강과 같은 제안된 해결책의 효과를 평가한다.

제안 방법

1픽셀 차이를 만드는 네 가지 교란 프로토콜(잘라내기, 검은색 배경으로의 임베딩, 인페인팅으로의 임베딩, 크기 변화로의 임베딩)을 1000장 ImageNet 검증 이미지에 적용했다.
두 가지 불변성을 측정했다: (i) 상위-1 변화의 P와 (ii) 최상 클래스 확률의 평균 절대 변화(MAC).
세 가지 Keras 모델(VGG16, ResNet50, InceptionResNetV2)과 세 가지 PyTorch 모델(VGG16, ResNet50, DenseNet121)을 비교했다.
중간 레이어에서 읽기 분류기를 학습시키고 1픽셀 이동 효과를 평가하여 층 깊이가 시프트 가능성에 미치는 영향을 분석했다.
CNN의 하위 샘플링과 비선형성에 적용되는 샘플링, 시프트 가능성, 그리고 션넨-나이퀴스트 정리에 대한 이론적 논의를 제시했다.
내부 표현의 안티앨라이어싱과 확장된 데이터 증강과 같은 제시된 해결책을 평가했다.

실험 결과

연구 질문

RQ1작은 이미지 변환이 CNN의 예측을 얼마나 자주 바꾸는가, 그리고 이것이 아키텍처와 교란 프로토콜에 따라 어떻게 달라지는가?
RQ2합성곱 아키텍처와 데이터 증강이 작은 평행이동이나 재스케일링 하에서 불변성을 보장하지 못하는 이유는 무엇인가?
RQ3샘플링(스트라이드)과 샘플링 정리가 CNN에서 시프트 불변성을 만들어내는지 또는 깨뜨리는지에 대한 역할은 무엇인가?
RQ4안티앨라이어싱과 증가된 데이터 증강이 불변성을 의미 있게 향상시키는가, 어느 정도까지?
RQ5훈련 데이터에 비해 이미지의 일반적 특성이 CNN의 작은 변환에 대한 취약성에 어떤 영향을 미치는가?

주요 결과

원픽셀 교란은 CNN의 상위-1 예측을 최대 약 30%의 확률로 바꿀 수 있다.
불변성의 부족은 여러 아키텍처와 Keras 및 PyTorch pretrained 모델에서 관찰된다.
이동 불변성은 하위 샘플링(스트라이드)이 문자 그대로의 시프트 가능성을 깨뜨리기 때문에 보장되지 않는다; 시프트 가능한 특징 맵과 나이퀴스트 기준에 따른 적절한 샘플링이 필요한 전역 풀링은 시프트-불변이어야 한다.
CNN은 학습 데이터와 매우 비슷한 이미지에 대해서만 불변성을 학습하며, 사진작가의 편향에서 벗어나는 이미지에 대해서는 작은 변환에 대한 민감도가 커진다.
중간 표현의 안티앨라이어싱은 부분적인 개선만 제공하고, 데이터 증강 확대는 도움이 되지만 특히 비전형적인 이미지의 경우 문제를 완전히 해결하지 못한다.
더 깊은 층은 누적된 하위 샘플링과 비선형성으로 시프트 가능성이 낮아져 깊이가 증가할수록 작은 평행이동에 더 취약해진다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.