QUICK REVIEW

[논문 리뷰] Unitary Evolution Recurrent Neural Networks

Martín Arjovsky, Amar Shah|arXiv (Cornell University)|2015. 11. 20.

Neural Networks and Applications참고 문헌 13인용 수 222

한 줄 요약

이 논문은 장기적 의존성을 학습할 수 있도록 기울기 안정성을 높이고자, 유니터리 가중치 행렬의 새로운 파arameterization을 사용하는 유니터리 진동 신경망(uRNNs)을 제안한다. 복소수 도메인에서 구조화된 유니터리 행렬을 조합함으로써 효율적인 계산과 장기적 추론이 필요한 과제에서 최신 기술 수준(SOTA) 성능을 달성하며, LSTMs와 직교 초기화된 RNNs를 능가한다.

ABSTRACT

Recurrent neural networks (RNNs) are notoriously difficult to train. When the eigenvalues of the hidden to hidden weight matrix deviate from absolute value 1, optimization becomes difficult due to the well studied issue of vanishing and exploding gradients, especially when trying to learn long-term dependencies. To circumvent this problem, we propose a new architecture that learns a unitary weight matrix, with eigenvalues of absolute value exactly 1. The challenge we address is that of parametrizing unitary matrices in a way that does not require expensive computations (such as eigendecomposition) after each weight update. We construct an expressive unitary weight matrix by composing several structured matrices that act as building blocks with parameters to be learned. Optimization with this parameterization becomes feasible only when considering hidden states in the complex domain. We demonstrate the potential of this architecture by achieving state of the art results in several hard tasks involving very long-term dependencies.

연구 동기 및 목표

장기적 의존성을 학습하는 데 장애가 되는 순환 신경망(RNNs)에서의 기울기 소실 및 폭발 문제를 해결하기 위해.
각 가중치 갱신 후 비용이 많이 드는 고유분해를 피하면서도 유니터리 성질을 유지하는 효율적인 유니터리 행렬의 파arameterization을 개발하기 위해.
은닉 상태 간 가중치 행렬을 유니터리(절댓값이 1인 고유값)로 제약하여 장기간의 시퀀스를 거쳐도 기울기 흐름이 안정되도록 하기 위해.
복소수 값의 순환 신경망이 최적화 및 표현 능력 향상에 기여하는지 탐색하기 위해.
uRNNs가 LSTMs와 직교 초기화된 RNNs보다 장기적 의존성을 더 효과적으로 학습할 수 있는지 입증하기 위해.

제안 방법

유니터리 성질을 유지하면서도 고유분해를 필요로 하지 않는, 구조화되고 학습 가능한 행렬(예: 대각행렬, 순열행렬, 회전행렬 등)의 조합으로 유니터리 행렬을 파arameterization하는 방법을 제안한다.
유니터리 행렬의 효과적인 최적화를 가능하게 하기 위해 복소수 값의 은닉 상태와 파aram터를 사용한다. 이는 실수 도메인에서는 어려운 문제이다.
행렬 분해 기반 접근법을 사용하며, 각 구성 요소 행렬은 일반적인 행렬과 달리 O(n log n)의 계산과 O(n)의 메모리로 파arameterization된다.
기울기 역전파를 위해 연쇄법칙을 적용하며, 유니터리 행렬의 역행렬이 공액 전치행렬임을 활용하여 효율적인 역전파를 구현한다.
Theano에서 복소수 행렬을 실수 2n×2n 블록으로 표현함으로써 실수 기반 역전파를 적용하여 표준 최적화를 가능하게 한다.
제약된 파aram터 갱신을 통해 학습 중에도 유니터리 성질을 유지하는, 미분 가능하고 파arameterized된 유니터리 행렬 구축 방법을 구현한다.

실험 결과

연구 질문

RQ1비용이 많이 드는 고유분해를 피하면서도 학습 중에 유니터리 성질을 유지할 수 있는 유니터리 행렬의 파arameterization을 구성할 수 있는가?
RQ2RNNs에 유니터리 가중치 행렬을 사용할 경우, 표준 RNNs와 LSTMs에 비해 장기간의 시퀀스를 거쳐 기울기 흐름이 유의미하게 향상되는가?
RQ3복소수 값의 순환 신경망이 실수 값의 대안보다 장기적 의존성을 학습하는 데 더 뛰어난 성능을 보일 수 있는가?
RQ4매우 긴 시퀀스를 처리할 때, uRNN은 LSTMs에 비해 은닉 상태 포화 현상이 얼마나 줄어드는가?
RQ5uRNN은 매우 긴 시퀀스를 통한 추론이 요구되는 과제에서 최신 기술 수준 성능을 달성할 수 있는가?

주요 결과

uRNN은 장기간의 시퀀스 동안 기울기 노름이 안정적으로 유지되며, 기울기 감쇠가 최소한이지만, LSTMs와 표준 RNNs는 기하급수적으로 기울기 소실을 보인다.
100개의 학습 반복 후에도 uRNN은 다른 모델들보다 기울기 감쇠가 현저히 적게 발생하여 기울기 흐름이 뛰어나다는 것을 나타낸다.
uRNN은 은닉 상태 포화 현상이 발생하지 않으며, 시간이 지남에 따라 은닉 상태의 노름이 계속 증가하는 반면, LSTMs는 약 500개의 타임스텝 이후에 정체된다.
T=750인 더하기 문제에서 LSTM은 출력과 첫 번째 입력 사이에 피어슨 상관계수 ρ=0.991을 보였으며, 이는 첫 번째 값만 저장하고 두 번째 값을 반영하지 못했다는 것을 의미한다.
uRNN은 장기적 의존성이 요구되는 어려운 과제에서 LSTMs와 직교 초기화된 RNNs를 능가하는 최신 기술 수준 성능을 달성했다.
유니터리 행렬의 역행렬을 통한 은닉 상태 재계산이 가능하므로, 역전파 동안 모든 상태를 저장할 필요 없이 메모리 절감이 가능하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.