QUICK REVIEW

[논문 리뷰] Stabilizing Gradients for Deep Neural Networks via Efficient SVD Parameterization

Jiong Zhang, Qi Lei|arXiv (Cornell University)|2018. 03. 25.

Matrix Theory and Algorithms인용 수 63

한 줄 요약

이 논문은 스펙트럴-RNN(Spectral-RNN)을 제안합니다. 이는 RNN의 그래디언트를 안정시키기 위해 특이값을 명시적으로 제어하는 SVD 기반의 가중치 매개화 방법으로, 비정방 행렬로의 일반화도 가능하며, 학습 속도와 일반화 성능을 향상시킵니다.

ABSTRACT

Vanishing and exploding gradients are two of the main obstacles in training deep neural networks, especially in capturing long range dependencies in recurrent neural networks~(RNNs). In this paper, we present an efficient parametrization of the transition matrix of an RNN that allows us to stabilize the gradients that arise in its training. Specifically, we parameterize the transition matrix by its singular value decomposition(SVD), which allows us to explicitly track and control its singular values. We attain efficiency by using tools that are common in numerical linear algebra, namely Householder reflectors for representing the orthogonal matrices that arise in the SVD. By explicitly controlling the singular values, our proposed Spectral-RNN method allows us to easily solve the exploding gradient problem and we observe that it empirically solves the vanishing gradient issue to a large extent. We note that the SVD parameterization can be used for any rectangular weight matrix, hence it can be easily extended to any deep neural network, such as a multi-layer perceptron. Theoretically, we demonstrate that our parameterization does not lose any expressive power, and show how it controls generalization of RNN for the classification task. %, and show how it potentially makes the optimization process easier. Our extensive experimental results also demonstrate that the proposed framework converges faster, and has good generalization, especially in capturing long range dependencies, as shown on the synthetic addition and copy tasks, as well as on MNIST and Penn Tree Bank data sets.

연구 동기 및 목표

딥 네트워크, 특히 RNN에서 소실/발산 그래디언트를 동기화시키고 해결하려는 동기 부여.
표현력을 유지하면서 스펙트럴 제어를 가능하게 하는 SVD 기반 가중치 매개화를 제안합니다.
복잡도를 증가시키지 않으면서 그래디언트 안정성을 개선하기 위해 특이값을 제약하는 Spectral-RNN을 개발합니다.
비정방 가중치 행렬을 MLP 및 잔차 네트워크로 확장하기 위한 SVD 매개화를 확장합니다.
스펙트럴 제약 하의 일반화에 대한 이론적 통찰력을 제공하고 여러 과제에서 실험적으로 검증합니다.

제안 방법

가중치 행렬 W를 SVD W = U Σ V^T로 매개화하고, U와 V를 Householder 반사체의 곱으로 축약하여 표현합니다.
훈련 중 W를 SVD 형태로 유지하여 특이값을 명시적으로 추적하고 제약합니다.
σ에sigmoid 기반 업데이트 스킴을 사용하여 특이값을 1 근처에 유지하는 매개화를 통해 제약합니다.
각 층의 연산 복잡도를 O(n) 또는 거의 선형으로 보존하며 Householder 반사로의 곱으로 순방향/역전파를 효율적으로 계산합니다.
축소된 SVD와 축약된 Householder 표현으로 W를 비정방(비정방)인 W에 대해 확장하고 MLP에 적용합니다.
Spectral-RNN, 비정방 가중치 행렬, 일반 가정 RNN과의 비교를 위한 계산 비용을 탐구합니다.

실험 결과

연구 질문

RQ1그래디언트 소실/발산을 네트워크 표현력을 해치지 않고도 완화할 수 있는가?
RQ2스펙트럼 제어를 통한 SVD 매개화가 최적화, 일반화 및 장기 의존성 모델링 능력을 향상시키는가?
RQ3SVD 기반 매개화를 비정방 가중치 행렬에 효율적으로 적용할 수 있는가? MLP 및 다른 아키텍처에 적용 가능한가?
RQ4스펙트럼 제약과 RNN의 일반화 간의 이론적 보장이 존재하는가?
RQ5Spectral-RNN이 합리적 벤치마크(RNN, oRNN, LSTM)와 비교하여 합성 태스크 및 표준 데이터셋에서 실험적으로 어떻게 수행하는가?

주요 결과

Spectral-RNN은 합성 덧셈 및 복사 태스크에서 깊이가 증가함에 따라 Vanilla RNN, IRNN, oRNN, LSTM에 비해 그래디언트 안정성과 수렴 속도가 향상되는 것을 보여줍니다.
Spectral-RNN은 픽셀-MNIST(128 은닉 유닛에서 97.7%)에서 더 높은 정확도와 permuted-MNIST에서도 여러 벤치마크를 능가하는 경쟁력 있는 성능을 보였습니다.
Penn Tree Bank에서 1층 및 2층 구성의 Spectral-RNN이 더 낮은 학습 perplexity와 더 적은 매개변수로 LSTM보다 비슷하거나 더 나은 테스트 perplexity를 달성합니다.
이론적 결과: 경계 손실하의 RNN 일반화 편이는 전이 행렬의 스펙트럴 노름이 증가하는 인자에 의해 상한으로 작용하며, 특이값을 제약하면 일반화가 향상됩니다.
비정방 행렬로의 확장에서도 SVD 매개화는 표현력을 유지하고 MLP 및 잔차 네트워크에 적용 가능하며 계산 비용도 비슷하게 유지됩니다.
실험 결과 Spectral-RNN은 벤치마크 대비 장기 의존성 모델링을 더 잘 보존하고, 학습 전반에 걸쳐 강건한 그래디언트를 제공합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.