Skip to main content
QUICK REVIEW

[논문 리뷰] Beyond exploding and vanishing gradients: analysing RNN training using attractors and smoothness

Antônio H. Ribeiro, Koen Tiels|arXiv (Cornell University)|2019. 06. 20.
Model Reduction and Neural Networks참고 문헌 12인용 수 50
한 줄 요약

본 논문은 비용 함수의 매끄러움과 어트랙터 다이내믹스를 통해 폭발/소실 기울기 문제를 재정의하고, LSTM, stable LSTM, 및 orthogonal RNNs를 다양한 작업에서 비교하여 학습 동역학과 장기 기억을 설명한다.

ABSTRACT

The exploding and vanishing gradient problem has been the major conceptual principle behind most architecture and training improvements in recurrent neural networks (RNNs) during the last decade. In this paper, we argue that this principle, while powerful, might need some refinement to explain recent developments. We refine the concept of exploding gradients by reformulating the problem in terms of the cost function smoothness, which gives insight into higher-order derivatives and the existence of regions with many close local minima. We also clarify the distinction between vanishing gradients and the need for the RNN to learn attractors to fully use its expressive power. Through the lens of these refinements, we shed new light on recent developments in the RNN field, namely stable RNN and unitary (or orthogonal) RNNs.

연구 동기 및 목표

  • 비용 함수의 매끄러움과 고차 도함수를 강조하여 폭발적 그래디언트 개념을 다듬는다.
  • 소실 그래디언트와 RNN이 장기 기억을 위한 어트랙터를 학습해야 하는 필요성의 차이를 명확히 한다.
  • stable와 orthogonal RNN가 다이내믹스와 그래디언트 동작을 어떻게 관리하는지 조사한다.
  • 학습 중 어트랙터의 형성 및 분岔이 장기 기억이 필요한 과제에서 어떻게 나타나는지 시연한다.

제안 방법

  • RNN을 이산 시간 동적 시스템으로 모델링하고 내부 상태의 엔트로피를 분석하여 정보 유지와 Lipschitz 다이내믹스의 관계를 규명한다.
  • 수축적(contractive) 규역과 비수축적(Regime)을 정의하고 이를 고정점, 어트랙터, 기억과 연관지어 설명한다.
  • 훈련 중 일정 입력하에서의 어트랙터와 추론 중의 어트랙터를 시각화하기 위해 분岐 다이어그램을 활용한다.
  • 비용 함수의 매끄러움과 상태 전이 Lipschitz 상수 Lf 및 궤적 길이 N 사이의 관계를 나타내는 Lipschitz 기반 이론적 프레임워크(Theorem 1)를 개발한다.
  • LSTM, stable LSTM (sLSTM), orthogonal RNN (oRNN)을 사인파 생성, 시퀀스 분류, 언어 모델링 과제에서 비교한다.
  • 훈련과 추론 사이의 어트랙터와 분岐의 차이가 학습 dynamics에 미치는 영향을 조사한다.

실험 결과

연구 질문

  • RQ1비용 함수의 매끄러움이 그래디언트 크기를 넘어 RNN 훈련 dynamics에 어떤 영향을 미치는가?
  • RQ2상태-전이 Lipschitz 상수 Lf와 훈련 중 1차 및 2차 도함수의 폭발 사이의 관계는 무엇인가?
  • RQ3수축적 및 비수축적 다이내믹스가 정보 유지 및 장기 기억과 어떤 관련이 있는가?
  • RQ4Stable 및 orthogonal RNN가 장기 의존성이 필요한 과제를 해결하기 위해 어트랙터를 어떻게 다르게 활용하는가?
  • RQ5어트랙터 분岐가 sine-wave 생성, 시퀀스 분류, 언어 모델링 같은 학습 과제와 어떤 관계를 가지는가?

주요 결과

lLSTMsLSTMoRNN
501.001.001.000
1001.001.001.000
2001.000.270.999
3000.250.260.995
5000.270.260.970
  • 정보 유지를 Lipschitz 상수 Lf와의 엔트로피 기반 분석으로 연결하고, 서로 다른 상태(Lf<1, Lf=1, Lf>1)가 엔트로피의 감소, 일정성, 증가를 암시한다.
  • 정리 1(Theorem 1)은 비용 V와 그 그래디언트에 대한 Lipschitz 한계를 제시하며, Lf와 N의 증가에 따라 비수축 시스템에서 1차 및 2차 도함수의 폭발 가능성을 보여준다.
  • 장기 기억이 필요한 과제에서 훈련 중 혼돈적이거나 비선형적 어트랙터가 등장하며 비용 지형에 여러 지역 최솟값의 영역을 형성한다.
  • Stable LSTM은 특정 과제에서 어트랙터를 통해 정보를 저장하는 데 한계가 있는 반면, oRNN은 고정점 구름을 형성하고 이를 훈련 중에 조정하여 긴 시퀀스를 해결할 수 있다.
  • Orthogonal RNN은 분岐를 피하기 위해 고유값을 1로 유지하지만 여전히 주기적 어트랙터를 학습할 수 있으며, 장기 기억을 위한 다양한 메커니즘을 강조한다.
  • 실험 결과 LSTM은 짧은 시퀀스 과제에서 완벽한 정확도를 보일 수 있지만 긴 시퀀스에서는 불안정해지거나 효과가 떨어지는 반면, oRNN은 수렴이 더 매끄럽고 보고된 과제에서 긴 시퀀스 성능이 더 우수하다.
  • WikiText-2의 언어 모델링에서 LSTM은 강한 perplexity를 달성하고(99.2), sLSTM은 더 나쁘며(118.8), oRNN은 더 나쁘다(185.3). 이는 고차원 출력에서의 이들 아키텍처의 트레이드오프를 반영한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.