Skip to main content
QUICK REVIEW

[논문 리뷰] All you need is a good init

Dmytro Mishkin, Jiřı́ Matas|arXiv (Cornell University)|2015. 11. 19.
Advanced Neural Network Applications참고 문헌 16인용 수 206
한 줄 요약

이 논문은 층별로 단위 분산을 갖는 초기화(LSUV) 방법을 제안한다. 이는 간단한 두 단계의 방법으로, 먼저 정규직교 행렬을 사용하여 가중치를 초기화하고, 이후 각 층의 출력 분산을 정확히 1로 정규화한다. 이 방법을 통해 표준 SGD를 사용하여 매우 깊은 네트워크를 훈련시킬 수 있으며, FitNets나 하이웨이 네트워크와 같은 복잡한 방법보다 빠른 수렴 속도를 보이며 MNIST, CIFAR, ImageNet에서 최고 또는 최고에 가까운 정확도를 달성한다.

ABSTRACT

Layer-sequential unit-variance (LSUV) initialization - a simple method for weight initialization for deep net learning - is proposed. The method consists of the two steps. First, pre-initialize weights of each convolution or inner-product layer with orthonormal matrices. Second, proceed from the first to the final layer, normalizing the variance of the output of each layer to be equal to one. Experiment with different activation functions (maxout, ReLU-family, tanh) show that the proposed initialization leads to learning of very deep nets that (i) produces networks with test accuracy better or equal to standard methods and (ii) is at least as fast as the complex schemes proposed specifically for very deep nets such as FitNets (Romero et al. (2015)) and Highway (Srivastava et al. (2015)). Performance is evaluated on GoogLeNet, CaffeNet, FitNets and Residual nets and the state-of-the-art, or very close to it, is achieved on the MNIST, CIFAR-10/100 and ImageNet datasets.

연구 동기 및 목표

  • 표준 확률적 경사 하강법(SGD)을 사용해 매우 깊은 신경망을 처음부터 훈련시키는 데 있어 악화된 가중치 초기화로 인해 실패하는 문제를 해결하기 위해.
  • 복잡한 훈련 기법이나 보조 네트워크가 필요 없이 단순하고 일반적이며 효율적인 초기화 방법을 개발하기 위해.
  • 복잡한 딥러닝 아키텍처인 FitNets나 하이웨이 네트워크와 비교해도 성능을 충족하거나 능가할 수 있는 간단한 분산 정규화 절차의 가능성을 평가하기 위해.
  • 다양한 활성화 함수와 네트워크 아키텍처에서 초기화가 훈련 속도와 최종 정확도에 미치는 영향을 조사하기 위해.
  • 대규모 데이터셋인 ImageNet과 같은 경우에서 배치 정규화와 비교해 수렴 속도와 최종 성능 측면에서 LSUV 초기화의 성능을 평가하기 위해.

제안 방법

  • 모든 합성곱 및 완전 연결 층의 가중치를 초기화할 때 정규직교 행렬을 사용하여 안정적인 초기 신호 전파를 보장한다.
  • 입력에서 출력으로 향해 층을 순차적으로 처리하면서, 작은 배치 데이터를 사용한 순방향 전파를 통해 각 층의 활성화 분산을 정확히 1로 정규화한다.
  • 훈련 시작 전에 한 번만 분산 정규화를 적용하므로, 이는 한 번의 사전 처리 단계로 간주된다.
  • 정규직교 가중치 행렬을 생성하기 위해 특이값 분해(SVD)를 사용하여, 초기 가중치 분포가 각 층에서 단위 분산을 유지하도록 보장한다.
  • 정규직교 초기화와 층별 분산 정규화를 결합하여 기울기 흐름을 안정화하고 기울기 소실/폭발 문제를 방지한다.
  • 추가 정규화 레이어나 복잡한 최적화 기법 없이 표준 SGD를 사용해 네트워크를 훈련시킨다.

실험 결과

연구 질문

  • RQ1간단하고 한 번만 수행하는 가중치 초기화 절차가 표준 SGD를 사용해 매우 깊은 네트워크를 엔드 투 엔드로 훈련시킬 수 있는가?
  • RQ2LSUV 초기화가 FitNets나 하이웨이 네트워크와 같은 복잡한 딥러닝 아키텍처보다 성능이 뛰어나거나 동등한가?
  • RQ3특히 ImageNet과 같은 대규모 데이터셋에서 LSUV가 배치 정규화와 비교해 수렴 속도와 최종 정확도 측면에서 어떻게 성능을 내는가?
  • RQ4ReLU, maxout, tanh와 같은 다양한 활성화 함수에서 LSUV가 효과적으로 작동하는가?
  • RQ5훈련 중에 계산 오버헤드를 추가하지 않으면서도 LSUV가 훈련 시간을 줄이고 수렴을 향상시킬 수 있는가?

주요 결과

  • LSUV 초기화는 MNIST, CIFAR-10/100, ImageNet에서 최고 또는 최고에 가까운 테스트 정확도를 달성했으며, FitNets나 하이웨이 네트워크와 같은 복잡한 방법보다 뛰어난 성능을 보였다.
  • GoogLeNet에서 LSUV 초기화 네트워크는 원래 초기화보다 더 빠르게 수렴했고, 최종 top-1 정확도 68.0%를 기록했으며, 원래 초기화의 67.2%보다 높았다. 이는 일관된 향상이다.
  • CaffeNet에서 LSUV는 초기 평탄한 손실 단계를 0.5에서 0.05 에포크로 줄였지만, 결국 원래 네트워크에 뒤처지며 최종 정확도가 1.3% 낮았다. 그 이유는 아직 명확하지 않다.
  • LSUV 초기화는 벽시계 시간 측면에서 배치 정규화와 비슷한 속도를 보였으며, CIFAR-10에서 BN 성능을 따라잡는 데 성공했고, 각 반복당 약 30%의 계산 오버헤드를 피했다.
  • 이 방법은 ReLU, maxout, tanh와 같은 다양한 활성화 함수에서 뛰어난 성능을 보이며 일관된 성능 향상을 보였다.
  • LSUV 초기화의 계산 비용은 매우 낮았으며, CaffeNet 기준 최대 3.5분이 소요되었고, 이는 훈련 시간에 비해 무시할 만큼 작았다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.