Skip to main content
QUICK REVIEW

[논문 리뷰] Random Walks: Training Very Deep Nonlinear Feed-Forward Networks with Smart Initialization.

David Sussillo|arXiv (Cornell University)|2014. 12. 19.
Stochastic Gradient Optimization Techniques인용 수 27
한 줄 요약

이 논문은 기울기 노름의 진동을 랜덤 워크로 모델링하여 매우 깊은 순환 신경망을 훈련하기 위한 스마트 초기화 기법을 제안한다. 기울기 노름의 랜덤 워크를 균형 잡히게 하기 위해 가중치 행렬을 스케일링함으로써, 이 방법은 기울기 노름이 깊이의 제곱근 비례로 스케일링되도록 하여 기울기 소실 문제를 깊이가 아닌 넓이를 늘림으로써 완화시킨다.

ABSTRACT

Training very deep networks is an important open problem in machine learning. One of many difficulties is that the norm of the back-propagated error gradient can grow or decay exponentially. Here we show that training very deep feed-forward networks (FFNs) is not as difficult as previously thought. Unlike when back-propagation is applied to a recurrent network, application to an FFN amounts to multiplying the error gradient by a different random matrix at each layer. We show that the successive application of correctly scaled random matrices to an initial vector results in a random walk of the log of the norm of the resulting vectors, and we compute the scaling that makes this walk unbiased. The variance of the random walk grows only linearly with network depth and is inversely proportional to the size of each layer. Practically, this implies a gradient whose log-norm scales with the square root of the network depth and shows that the vanishing gradient problem can be mitigated by increasing the width of the layers. Mathematical analyses and experimental results using stochastic gradient descent to optimize tasks related to the MNIST and TIMIT datasets are provided to support these claims. Equations for the optimal matrix scaling are provided for the linear and ReLU cases.

연구 동기 및 목표

  • 매우 깊은 순환 신경망에서 기울기 소실 또는 기울기 폭발 문제를 해결하기 위해.
  • 랜덤 가중치 행렬을 가진 깊은 FFN에서 역전파 중 기울기 노름의 진동을 이해하기 위해.
  • 기울기 노름의 로그 노름이 균형 잡힌 랜덤 워크를 수행하도록 하여 기울기 흐름을 안정화시키는 최적의 가중치 스케일링을 유도하기 위해.
  • 기울기 소실 문제를 완화하기 위해 깊이가 아닌 층의 너비를 늘리는 것이 핵심임을 보여주기 위해.

제안 방법

  • 각 가중치 행렬을 분산을 제어할 수 있도록 스케일링하여, 역전파된 기울기를 연속적인 곱셈 연산의 시퀀스로 모델링한다.
  • 기울기 벡터의 로그 노름을 랜덤 워크로 분석하고, 균형 잡힌 워크를 위한 조건을 유도한다.
  • 선형 및 ReLU 활성화를 가진 네트워크에서 랜덤 워크를 안정화시키기 위해 가중치 행렬의 최적 스케일링 요소를 계산한다.
  • 랜덤 워크의 분산이 깊이에 비례하고 층의 너비에 반비례하므로, 이를 초기화 지침으로 사용한다.
  • 랜덤 워크의 성질에 기반하여 선형 및 ReLU 케이스의 최적 스케일링에 대한 해석적 표현을 유도한다.
  • MNIST 및 TIMIT 작업에서 확률적 경사 하강법을 사용하여 실측 기울기 노름을 기반으로 한 접근의 유효성을 검증한다.

실험 결과

연구 질문

  • RQ1랜덤 가중치를 가진 매우 깊은 순환 신경망에서 역전파된 기울기의 노름은 어떻게 진동하는가?
  • RQ2기울기의 로그 노름이 균형 잡힌 랜덤 워크를 수행하도록 하기 위해 가중치 행렬은 어떻게 스케일링되어야 하는가?
  • RQ3기울기 노름의 랜덤 워크의 분산은 네트워크의 깊이와 층의 너비에 어떻게 의존하는가?
  • RQ4기울기 분산을 제어함으로써 층의 너비를 늘림으로써 매우 깊은 네트워크에서 훈련을 안정화시킬 수 있는가?
  • RQ5기울기 소실 또는 기울기 폭발을 방지하기 위해 선형 및 ReLU 활성화를 가진 깊은 네트워크의 최적 초기화 스케일은 무엇인가?

주요 결과

  • 역전파된 기울기의 로그 노름은 네트워크 깊이에 비례하여 선형적으로 증가하는 분산을 가지는 랜덤 워크를 수행한다.
  • 최적의 가중치 스케일링은 랜덤 워크가 균형 잡히게 하여 기울기 노름의 체계적 감소 또는 폭발을 방지한다.
  • 랜덤 워크의 분산은 각 층의 너비에 반비례하므로, 더 넓은 층은 기울기 흐름을 안정화시킨다.
  • 결과적으로, 기울기의 기대 크기는 깊이의 제곱근 비례로 증가하며, 지수적 증가가 아니다.
  • MNIST 및 TIMIT에서의 실증 결과는 제안된 초기화 기법이 매우 깊은 네트워크의 안정적 훈련을 가능하게 함을 보여준다.
  • 선형 및 ReLU 네트워크에 대한 유도된 스케일링 규칙은 실생활에서 효과적이며, 수백 층에 걸쳐 기울기 노름이 안정적으로 유지됨을 확인할 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.