QUICK REVIEW

[논문 리뷰] Effective and Efficient Dropout for Deep Convolutional Neural Networks

Shaofeng Cai, Jinyang Gao|arXiv (Cornell University)|2019. 04. 06.

Advanced Neural Network Applications참고 문헌 49인용 수 55

한 줄 요약

이 논문은 CNN용 드롭아웃 변형을 분석하고 BN과 드롭아웃의 충돌을 식별하며 더 나은 규제화를 달성하기 위해 최소한의 오버헤드로 CNN 아키텍처 전반에 걸쳐 Drop-Conv2d 및 관련 빌딩 블록(Drop-Neuron, Drop-Channel, Drop-Path)을 제안한다.

ABSTRACT

Convolutional Neural networks (CNNs) based applications have become ubiquitous, where proper regularization is greatly needed. To prevent large neural network models from overfitting, dropout has been widely used as an efficient regularization technique in practice. However, many recent works show that the standard dropout is ineffective or even detrimental to the training of CNNs. In this paper, we revisit this issue and examine various dropout variants in an attempt to improve existing dropout-based regularization techniques for CNNs. We attribute the failure of standard dropout to the conflict between the stochasticity of dropout and its following Batch Normalization (BN), and propose to reduce the conflict by placing dropout operations right before the convolutional operation instead of BN, or totally address this issue by replacing BN with Group Normalization (GN). We further introduce a structurally more suited dropout variant Drop-Conv2d, which provides more efficient and effective regularization for deep CNNs. These dropout variants can be readily integrated into the building blocks of CNNs and implemented in existing deep learning platforms. Extensive experiments on benchmark datasets including CIFAR, SVHN and ImageNet are conducted to compare the existing building blocks and the proposed ones with dropout training. Results show that our building blocks improve over state-of-the-art CNNs significantly, which is mainly due to the better regularization and implicit model ensemble effect.

연구 동기 및 목표

깊은 CNN의 강건한 규제화를 동원하여 과적합을 방지하고 일반화 성능을 향상시킨다.
CNN에서 드롭아웃 변형(뉴런, 채널, 경로)과 배치 정규화 및 데이터 증강과의 상호작용을 체계적으로 분석한다.
드롭아웃을 효과적이고 효율적으로 통합하는 통합된 합성 블록을 일반적인 CNN 아키텍처에 도입한다.
추가적인 추론 시 재병합될 수 있는 확장 가능한 정규화 기법으로서 Drop-Conv2d를 도입한다.
제안된 빌딩 블록을 사용하여 CIFAR, SVHN, ImageNet 같은 표준 벤치마크에서 광범위한 실험적 이득을 보여준다.

제안 방법

채널 수준의 연산에 초점을 맞춘 분할-변환-집계 프레임워크에서 CNN 변환을 형식화한다.
드롭아웃 변형(Drop-Neuron, Drop-Channel, Drop-Path)과 배치 정규화 및 그룹 정규화와의 상호작용을 비교 분석한다.
블록에서 합성 전에 드롭아웃을 배치하여 기울기 분산 및 분산 시프트를 줄인다.
드롭아웃을 각 채널 연결을 P 경로로 복제하고 이 경로에 드롭아웃을 적용한 후 추론 시 재집계하는 Drop-Conv2d를 제안한다.
기존 아키텍처에 쉽게 채택할 수 있도록 Drop-Neuron, Drop-Channel 등 드롭아웃을 통합하는 합성 빌딩 블록을 제공한다.
CIFAR, SVHN, ImageNet 전반의 CNN 아키텍처에서 제안된 빌딩 블록의 성능 향상을 평가한다.

실험 결과

연구 질문

RQ1CNN에서 드롭아웃이 배치 정규화와 어떻게 상호작용하는지, 표준 드롭아웃이 컨볼루션 블록에서 왜 비효율적일 수 있는지?
RQ2채널- 및 경로 수준의 드롭아웃(Drop-Channel, Drop-Path)이 뉴런 수준의 드롭아웃보다 CNN 규제화에 더 효과적인가?
RQ3드롭아웃을 CNN 블록에 통합하여 최소한의 오버헤드로 더 나은 규제화를 달성할 수 있는가?
RQ4Drop-Conv2d가 CIFAR, SVHN, ImageNet과 같은 표준 벤치마크에서 일반화 성능을 향상시키는가?

주요 결과

드-채널(drop-channel)과 드-패스(drop-path)가 CNN 학습에서 일반적으로 드-뉴런(drop-neuron)보다 더 우수한 성능을 보이며 이는 컨볼루션 채널 구조 및 BN과의 상호작용과 더 잘 정렬되기 때문이다.
드롭아웃을 컨볼루션 레이어 바로 앞에 배치하면 분산 시프트가 감소하고 BN의 안정성이 향상되어 학습 효율이 증가한다.
Drop-Conv2d는 채널 연결을 P 경로로 복제하고 이 경로에 드롭아웃을 적용한 뒤 추론 시 재집계하여 더 강력한 규제화를 제공하며 추론 오버헤드는 무시할 만하다.
BN은 드롭아웃 하에서 분산 시프트를 유발할 수 있으며, 이는 드롭아웃의 적절한 배치나 BN을 그룹 정규화로 대체함으로써 완화될 수 있다.
제안된 빌딩 블록은 CIFAR, SVHN, ImageNet에서 최첨단 CNN 대비 상당한 정확도 향상을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.