QUICK REVIEW

[논문 리뷰] Improving neural networks by preventing co-adaptation of feature detectors

Geoffrey E. Hinton, Nitish Srivastava|arXiv (Cornell University)|2012. 07. 03.

Neural Networks and Applications참고 문헌 18인용 수 6,639

한 줄 요약

드롭아웃은 훈련 중에 은닉 유닛을 정기적으로 제외하여 공동적합(co-adaptation)을 방지하고, 사실상 여러 모델을 평균화하여 다양한 작업에서 일반화 성능을 향상시킵니다.

ABSTRACT

When a large feedforward neural network is trained on a small training set, it typically performs poorly on held-out test data. This "overfitting" is greatly reduced by randomly omitting half of the feature detectors on each training case. This prevents complex co-adaptations in which a feature detector is only helpful in the context of several other specific feature detectors. Instead, each neuron learns to detect a feature that is generally helpful for producing the correct answer given the combinatorially large variety of internal contexts in which it must operate. Random "dropout" gives big improvements on many benchmark tasks and sets new records for speech and object recognition.

연구 동기 및 목표

제한된 데이터에서 신경망을 훈련할 때 과적합을 해결한다.
피처 탐지기가 서로 의존적으로 학습하는 것을 방지하는 간단하고 확장 가능한 정규화 기법(드롭아웃)을 도입한다.
드롭아웃이 여러 벤치마크 데이터셋과 네트워크 아키텍처 전반에서 일반화를 향상시킨다는 것을 입증한다.

제안 방법

각 학습 사례마다 은닉 유닛을 임의로 0.5의 확률로 드롭하여 공동적 적합에 의존하는 것을 방지한다.
표준 확률적 경사 하강법으로 훈련하되 각 은닉 유닛에 들어오는 가중치 벡터에 L2에 유사한 제약을 적용하고 위반 시 재정규화한다.
테스트 시에는 활성 유닛 수가 증가한 것을 보정하기 위해 모든 은닉 유닛을 포함하는 평균 네트워크를 사용하고, 바깥쪽 가중치는 절반으로 축소한다.
드롭아웃을 지수 개수의 부분 네트워크로부터의 예측을 평균내는 것과 동등한 효율적인 모델 평균화의 한 형태로 해석한다.
여러 데이터셋에 걸쳐 드롭아웃이 적용된 네트워크를 표준 역전파 및 사전 학습(프리트레이닝) 규칙과 비교한다.
개별 유닛별로 드롭아웃 확률을 조정하고 학습된 드롭아웃을 전문가의 혼합 방식으로 탐구한다.

실험 결과

연구 질문

RQ1드롭아웃이 다양한 도메인에서 과적합을 줄이고 테스트 성능을 향상시키는가?
RQ2다른 아키텍처와 데이터 타입에 대해 드롭아웃을 어떻게 구성해야 하는가(확률, 유닛당 적응)?
RQ3신경망에서 드롭아웃과 앙상블/모델 평균화 해석 간의 관계는 무엇인가?
RQ4대규모 시각 작업에서 드롭아웃이 사전 학습 및 컨벌루셔널 아키텍처와 어떻게 상호 작용하는가?

주요 결과

드롭아웃은 다수의 아키텍처에서 MNIST의 테스트 성능을 크게 향상시키고 표준 역전파에 비해 오류율을 낮춘다.
TIMIT에서 은닉 유닛 드롭아웃 50%가 프레임 분류 오류를 22.7%에서 19.7%로 낮춘다.
CIFAR-10에서 딥 CNN의 마지막 은닉층에 적용했을 때 오류를 18.5%에서 15.6%로 감소시킨다.
ImageNet에서 상단 컨볼루션 층의 드롭아웃이 다섯 개의 컨볼루션 층 모델에서 오류를 47.2%에서 42.4%로 감소시킨다.
Reuters 텍스트 데이터에서 2000-2000-1000-50 아키텍처로 드롭아웃이 오류를 31.05%에서 29.62%로 감소시킨다.
드롭아웃은 MNIST 시각화에서 관찰된 바와 같이 더 단순하고 덜 공동적합한 특징을 학습하는 경향이 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.