Skip to main content
QUICK REVIEW

[논문 리뷰] Improved Regularization of Convolutional Neural Networks with Cutout

Terrance DeVries, Graham W. Taylor|arXiv (Cornell University)|2017. 08. 15.
Advanced Neural Network Applications참고 문헌 19인용 수 2,718
한 줄 요약

입력 이미지의 사각 영역을 훈련 중 무작위로 마스킹하는 Cutout은 CNN 일반화 규제화를 개선하고, 다른 증강 및 규제와 함께 CIFAR-10, CIFAR-100, 및 SVHN에서 새로운 최첨단 결과를 달성한다.

ABSTRACT

Convolutional neural networks are capable of learning powerful representational spaces, which are necessary for tackling complex learning tasks. However, due to the model capacity required to capture such representations, they are often susceptible to overfitting and therefore require proper regularization in order to generalize well. In this paper, we show that the simple regularization technique of randomly masking out square regions of input during training, which we call cutout, can be used to improve the robustness and overall performance of convolutional neural networks. Not only is this method extremely easy to implement, but we also demonstrate that it can be used in conjunction with existing forms of data augmentation and other regularizers to further improve model performance. We evaluate this method by applying it to current state-of-the-art architectures on the CIFAR-10, CIFAR-100, and SVHN datasets, yielding new state-of-the-art results of 2.56%, 15.20%, and 1.30% test error respectively. Code is available at https://github.com/uoguelph-mlrg/Cutout

연구 동기 및 목표

  • CNN의 일반화 성능을 향상시키기 위한 간단한 규제 기법을 제안한다.
  • 데이터셋과 아키텍처에 걸쳐 입력 영역의 무작위 제로 마스킹(컷아웃)의 효과를 탐구한다.
  • 컷아웃이 기존의 데이터 증강 및 규제 방법과의 호환성을 평가한다.
  • CIFAR-10, CIFAR-100, SVHN, 그리고 STL-10에서의 성능 향상을 보여주는 경험적 결과를 제시한다.

제안 방법

  • 훈련 중 각 입력의 무작위 위치에 고정 크기의 사각 영역을 마스킹하는 방식으로 CUTOUT을 도입한다.
  • 테스트 시 재조정 없이 입력 공간에서 제로 마스킹을 적용한다.
  • 컷아웃의 안정성을 위해 데이터의 평균을 0으로 정규화한다.
  • 검증 부분집합을 사용해 최적의 패치 크기를 식별하기 위해 cutout 크기에 대한 그리드 탐색을 수행한다.
  • CIFAR-10, CIFAR-100, SVHN, 및 STL-10에서 ResNet18, WideResNet, 및 shake-shake 모델로 cutout을 평가한다.
  • 표준 데이터 증강 및 배치 정규화와 함께 cutout을 결합한다.

실험 결과

연구 질문

  • RQ1무작위 cutout이 표준 데이터 증강 및 드롭아웃을 넘어 CNN의 일반화를 향상시키는가?
  • RQ2cutout이 ResNet 및 WRN과 같은 현대적 아키텍처 및 최첨단 규제들(예: shake-shake)과 어떻게 상호 작용하는가?
  • RQ3다양한 클래스 수와 해상도를 가진 데이터셋에서 cutout 패치 크기가 성능에 미치는 영향은 무엇인가?

주요 결과

방법C10C10+C100C100+SVHN
ResNet1810.63±0.264.72±0.2136.68±0.5722.46±0.31-
ResNet18 + cutout9.31±0.183.99±0.1334.98±0.2921.96±0.24-
WideResNet6.97±0.223.87±0.0826.06±0.2218.8±0.081.60±0.05
WideResNet + cutout5.54±0.083.08±0.1623.94±0.1518.41±0.271.30±0.03
Shake-shake regularization-2.86-15.85-
Shake-shake regularization + cutout-2.56±0.07-15.20±0.21-
  • Cutout은 ResNet18과 WideResNet에서 CIFAR-10 및 CIFAR-100의 테스트 정확도를 0.4~2.0 포인트 향상시킨다.
  • 컷아웃은 shake-shake 규제와 함께 CIFAR-10에서 2.56%, CIFAR-100에서 15.20%의 새로운 최첨단 결과를 달성한다.
  • Cutout은 WideResNet-16-8에서 SVHN의 테스트 오류를 1.30%로 달성한다.
  • STL-10에서 cutout은 no-augmentation 오류를 23.48%에서 20.77%로 낮추고, 증강과 함께는 14.21%에서 12.74%로 낮춘다.
  • Cutout은 얕은 층의 활성화를 증가시키고 깊은 층의 활성 분포를 확산시키는 경향이 있어 더 넓은 특징 활용을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.