QUICK REVIEW

[논문 리뷰] Multi-Sample Dropout for Accelerated Training and Better Generalization

Hiroshi Inoue|arXiv (Cornell University)|2019. 05. 23.

Advanced Neural Network Applications참고 문헌 24인용 수 52

한 줄 요약

멀티 샘플 드롭아웃은 입력당 여러 드롭아웃 샘플을 생성하고, 이들의 손실을 평균화하며, 최종-FC 계층만 중복시켜 학습 속도를 높이고 일반화 성능을 개선하는 반면, 표준 드롭아웃과 비교한다.

ABSTRACT

Dropout is a simple but efficient regularization technique for achieving better generalization of deep neural networks (DNNs); hence it is widely used in tasks based on DNNs. During training, dropout randomly discards a portion of the neurons to avoid overfitting. This paper presents an enhanced dropout technique, which we call multi-sample dropout, for both accelerating training and improving generalization over the original dropout. The original dropout creates a randomly selected subset (called a dropout sample) from the input in each training iteration while the multi-sample dropout creates multiple dropout samples. The loss is calculated for each sample, and then the sample losses are averaged to obtain the final loss. This technique can be easily implemented by duplicating a part of the network after the dropout layer while sharing the weights among the duplicated fully connected layers. Experimental results using image classification tasks including ImageNet, CIFAR-10, and CIFAR-100 showed that multi-sample dropout accelerates training. Moreover, the networks trained using multi-sample dropout achieved lower error rates compared to networks trained with the original dropout. The additional computation cost due to the duplicated operations is not significant for deep convolutional networks because most of the computation time is consumed in the convolution layers before the dropout layer, which are not duplicated.

연구 동기 및 목표

심층 신경망에서 과적합을 방지하기 위한 정규화 기법을 동기 부여한다.
학습 속도를 높이고 일반화를 향상시키기 위해 멀티 샘플 드롭아웃을 제안한다.
대규모 및 표준 이미지 분류 데이터셋에서의 효과를 입증한다.
기존 프레임워크와 통합되는 구현 지침을 제공한다.

제안 방법

드롭아웃 계층 뒤에 가중치를 공유하면서 네트워크 일부를 중복시켜 입력당 다수의 드롭아웃 샘플을 생성한다.
모든 드롭아웃 샘플에 걸친 손실을 계산하고 평균화하여 최종 학습 목표를 형성한다.
원래의 드롭아웃 및 드롭아웃 제거 기준과 비교하여 계산 비용과 정확도를 비교한다.
추론이 하나의 드롭아웃 샘플을 사용하도록 하여 효율성과 일관성을 유지함을 보인다.
네트워크 내에서 멀티 샘플 드롭아웃을 어디에 적용할지에 대한 실용적 지침을 제공한다(주로 말단 근처에서).
샘플 수를 늘리는 것이 왜 학습 속도를 가속하고 정확도를 높일 수 있는지에 대해 트레이드오프를 고려하여 설명한다.

실험 결과

연구 질문

RQ1CNN 및 더 깊은 아키텍처에 대해 멀티 샘플 드롭아웃이 원래 드롭아웃에 비해 학습 속도를 가속하는가?
RQ2여러 드롭아웃 샘플에 걸친 손실 평균화가 표준 이미지 분류 벤치마크에서 일반화를 향상시키는가?
RQ3아키텍처(예: VGG16, ResNet, 작은 CNN)와 데이터셋 전반에 걸쳐 드롭아웃 샘플 수가 학습 시간과 최종 정확도에 어떤 영향을 미치는가?
RQ4배치 위치, 샘플링 수, 드롭아웃 비율 측면에서 멀티 샘플 드롭아웃을 적용하기 위한 실용적인 가이드라인은 무엇인가?

주요 결과

멀티 샘플 드롭아웃은 사실상 더 큰 미니배치에 해당하는 샘플 다양성을 효과적으로 증가시켜 학습 속도를 높이고, 최종 레이어만 중복시킨다.
8개의 드롭아웃 샘플을 사용하면 VGG16과 같은 심층 CNN에서 더 빠른 수렴과 비교적 작은 각 반복 오버헤드 사이의 우호적인 균형을 달성한다.
멀티 샘플 드롭아웃으로 학습된 네트워크는 CIFAR-10, CIFAR-100, 및 ImageNet 변형에서 원래 드롭아웃에 비해 최종 검증 및 훈련 오차가 더 낮다.
이 기술은 다양한 드롭아웃 비율에 대해 견고하며 일반적으로 표준 드롭아웃보다 향상된 정확도를 제공하지만, 증가량은 아키텍처와 데이터 크기에 따라 달라진다.
네트워크 말단 근처에 멀티 샘플 드롭아웃을 적용하면 오버헤드를 최소화하고 이점을 극대화하며, 샘플링이 과도하거나 얕은 네트워크는 효율성을 떨어뜨린다.
드롭아웃 샘플 수를 증가시키면 보통 수렴 속도와 최종 정확도가 중간 한도까지 향상되며(예: 대략 여덟 샘플 정도).

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.