QUICK REVIEW

[논문 리뷰] On orthogonality and learning recurrent networks with long term dependencies

Eugene Vorontsov, Chiheb Trabelsi|arXiv (Cornell University)|2017. 01. 31.

Sparse and Compressive Sensing Techniques참고 문헌 17인용 수 114

한 줄 요약

논문은 컨스트레인된 순환 가중치 행렬의 직교성 제약이 최적화, 수렴 및 성능에 어떤 영향을 주는지 분석하고, W = U S V^T의 분해 파라미터화를 제안하며, 특이값에 마진을 두고 Stiefel 매니폴드에서의 지오데시 업데이트를 통해 역전파 중 확장/수축을 제어한다.

ABSTRACT

It is well known that it is challenging to train deep neural networks and recurrent neural networks for tasks that exhibit long term dependencies. The vanishing or exploding gradient problem is a well known issue associated with these challenges. One approach to addressing vanishing and exploding gradients is to use either soft or hard constraints on weight matrices so as to encourage or enforce orthogonality. Orthogonal matrices preserve gradient norm during backpropagation and may therefore be a desirable property. This paper explores issues with optimization convergence, speed and gradient stability when encouraging or enforcing orthogonality. To perform this analysis, we propose a weight matrix factorization and parameterization strategy through which we can bound matrix norms and therein control the degree of expansivity induced during backpropagation. We find that hard constraints on orthogonality can negatively affect the speed of convergence and model performance.

연구 동기 및 목표

롱-텀 의존성을 갖는 순환 네트워크에서 엄격한 직교성 제약이 학습 다이나믹스에 어떤 영향을 미치는지 조사한다.
역전파 시 확장/수축을 한정하기 위한 분해된 가중치 매개변화를 개발한다.
직교성의 완화/소프트화가 수렴 속도와 메모리 집약적 태스크 및 실제 데이터 태스크에서의 성능에 어떤 영향을 주는지 평가한다.
다양한 마진과 활성화 함수 하에서의 특이스펙트럼 진화와 그래디언트 동작을 합성 및 실제 태스크에서 살펴본다.

제안 방법

W = U S V^T로 가중치 행렬을 매개변수화하는데, 이때 U와 V는 직교하고 S는 특이값을 포함한다.
Stiefel 매니폴드에서의 Cayley 변환을 사용해 U와 V의 직교성을 보존한다(지오데시 그래디언트 디센트).
s_i = 2m(σ(p_i) - 0.5) + 1 형태의 시그모이달 매개변수를 통해 1 주위 마진 m으로 특이값을 제약하고, 마진을 고려한 학습률을 조정한다.
제어된 마진 하에서 오차-평면에서 벗어나 S를 비-매니폴드 방향으로 업데이트하여 직교성에서 벗어남을 허용한다; 스펙트럼 업데이트를 정규화해 스텝 크기를 관리한다.
합성 메모리 태스크(복사, 추가) 및 실제 데이터(연속 MNIST/pMNIST, PTB 문자 예측)에서 하드(마진 기반) 및 소프트Orthogonality 제약을 비교한다.
RMSprop 및 geoSGD를 명시된 학습률로 사용하고, 그래디언트 클리핑과 가중치 감소를 적용한다; tanh, ReLU, PReLU, OPLU 활성화에서 실험한다.

실험 결과

연구 질문

RQ1순환 가중치 행렬에 대해 강한 직교성 제약을 강제하는 것이 긴 시퀀스 태스크에서 그래디언트 흐름과 학습 안정성에 영향을 주는가?
RQ2마진 한정 특이값 매개변화가 표현력을 보존하면서 스펙트럴 노름과 그래디언트 확장을 제어할 수 있는가?
RQ3하드 대 소프트 직교성 제약이 합성 메모리 태스크 및 실제 순차 태스크에서 수렴 속도와 최종 정확도에 어떤 영향을 미치는가?
RQ4U와 V에 대한 지오데시 업데이트와 스펙트럼 마진 조합이 학습 다이나믹스와 태스크 성능에 어떤 영향을 미치는가?

주요 결과

하드 직교성은 안정적인 그래디언트 노름을 보장하지만 일부 태스크에서 수렴을 느리게 하거나 성능을 해칠 수 있다.
스펙트럼 마진을 통한 직교성 제약의 완화는 수렴 속도를 높이고 메모리 태스크(복사/추가 및 연속 MNIST)에서 성능을 향상시키는 경향이 있다.
비선형성 및 활성화 선택은 스펙트럴 제약과 상호 작용하며 특정 활성화(tanh, ReLU, OPLU)가 메모리 태스크에 다르게 영향을 준다.
마진 하에서의 특이값 분포는 주로 주어진 경계 내에 머무르고, 직교적으로 초기화된 모델은 장기 기억 태스크에서 학습 중 거의 단위 스펙트럼을 유지한다.
PTB 문자 예측의 경우 직교성에서의 편차 제약이 도움이 될 수 있으며, 이는 직교성 제약의 태스크 의존적 효과를 시사한다.
더 큰 스펙트럼 마진은 매우 긴 시퀀스에서 수렴을 방해할 수 있는 반면, 작은 마진(예: m = 0.1)은 MNIST 태스크에서 최상의 성능을 보이는 경우가 많다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.