QUICK REVIEW

[논문 리뷰] Regularizing Deep Neural Networks by Noise: Its Interpretation and Optimization

Hyeonwoo Noh, Tackgeun You|arXiv (Cornell University)|2017. 10. 14.

Domain Adaptation and Few-Shot Learning참고 문헌 38인용 수 78

한 줄 요약

본 논문은 노이즈(예: 드롭아웃)에 의한 정규화를 주변 가능도(marginal likelihood)의 하한을 최적화하는 것으로 해석하고, 학습 예시당 여러 노이즈 샘플을 사용하는 중요가중 스토캐스틱 경사하강법(IWSGD)을 제안하여 그 하한을 더 단단하게 만들고 일반화 성능을 향상시킨다.

ABSTRACT

Overfitting is one of the most critical challenges in deep neural networks, and there are various types of regularization methods to improve generalization performance. Injecting noises to hidden units during training, e.g., dropout, is known as a successful regularizer, but it is still not clear enough why such training techniques work well in practice and how we can maximize their benefit in the presence of two conflicting objectives---optimizing to true data distribution and preventing overfitting by regularization. This paper addresses the above issues by 1) interpreting that the conventional training methods with regularization by noise injection optimize the lower bound of the true objective and 2) proposing a technique to achieve a tighter lower bound using multiple noise samples per training example in a stochastic gradient descent iteration. We demonstrate the effectiveness of our idea in several computer vision applications.

연구 동기 및 목표

노이즈 기반 정규화를 주변 가능도(lower-bounding the marginal likelihood)로서의 확률적 해석 제공.
학습 예시당 다중 노이즈 샘플로 주변 가능도에 대한 중요가중 스토캐스틱 경사하강법(IWSGD)을 도입하고 유도.
드롭아웃에 특화시키고 비전 태스크에서 일반화 성능 향상 시연.
샘플 노이즈의 증가가 경계(bounds)를 더 타이트하게 하고 CIFAR 데이터셋에서 거의 최첨단 성능에 도달할 수 있음을 보임

제안 방법

노이즈를 주입한 은닉 유닛을 확률적 활성으로 모델링하고 노이즈에 대한 주변 가능도를 유도.
목표를 노이즈 샘플의 주변 가능도로 재매개변수화 트릭을 적용하여(식( Eq. 3)) 재작성.
다중 노이즈 샘플을 사용하여 주변 가능도에 대한 IWSGD 목표를 하한으로 유도(식( Eq. 4)).
정규화된 중요도 가중치를 가진 샘플들의 가중 평균으로 기울기(gradient) 계산(식( Eq. 7, Eq. 8)).
추론 시 표준 드롭아웃 스타일 스케일링을 사용하여 추론하고(테스트 시 추가 샘플링 없음).
훈련 예시당 다중 드롭아웃 마스크 샘플링 및 그래디언트 기여에 가중치를 부여하는 방법으로 메소드 특화

실험 결과

연구 질문

RQ1은닉 유닛에 노이즈를 주입하는 것이 실제 목적 함수를 하한으로 최적화하고 이 하한이 학습 예시당 다중 노이즈 샘플 사용으로 더 단단해질 수 있는가?
RQ2다중 노이즈 샘플의 중요가중(IWSGD)이 표준 드롭아웃 학습에 비해 일반화 성능을 개선할 수 있는가?
RQ3제안된 학습 방법이 기존의 드롭아웃 기반 모델에 쉽게 통합되어 비전 태스크에서 성능을 개선하는가?
RQ4샘플 당 노이즈 수를 늘리는 것이 구조적 변화를 요구하지 않으면서 일관되게 성능을 향상시키는가?

주요 결과

노이즈가 주입된 은닉 유닛을 확률적 활성으로 해석하고 표준 드롭아웃이 주변 가능도의 하한을 최적화함을 보인다.
여러 노이즈 샘플을 사용하여 경계를 더 단단하게 하는 IWSGD를 제안하고 유도(S>1).
다중 샘플이 있는 IWSGD가 표준 드롭아웃보다 일반화 성능을 개선하는 경향이 있으며 Wide ResNet에서 CIFAR의 드롭아웃 비율에 크게 민감하지 않다.
IWSGD(S=8)를 Wide ResNet에 적용했을 때 CIFAR-10/100에서 거의 최상위 수준의 성능을 보임.
IWSGD는 VQA, 이미지 캡션 생성, 액션 인식 벤치마크에서 향상을 가져오며, 여러 실험에서 S가 증가함에 따라 일관된 이득을 보임.
단순히 반복 횟수를 늘리는 것(×4 반복)이 다중 샘플 기반의 IWSGD 접근을 항상 능가하지는 않음

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.