QUICK REVIEW

[논문 리뷰] Improving performance of recurrent neural network with relu nonlinearity

Sachin S. Talathi, Aniket Vartak|arXiv (Cornell University)|2015. 11. 12.

Neural Networks and Applications참고 문헌 23인용 수 66

한 줄 요약

이 논문은 IRNN에서 신뢰행렬 초기화의 역동적 시스템 분석에 기반하여 ReLU 기반 순환 신경망(RNN)을 위한 정규화된 양의 정부호 가중치 초기화 전략(np-RNN)을 제안한다. 이 방법은 입력의 변동에 대한 은닉 상태의 민감도를 감소시켜 더 안정적인 훈련과 장거리 시퀀스 작업에서의 향상된 성능을 이끌어낸다. 이는 MNIST 픽셀 시퀀스 작업과 UCF-101 행동 인식에서 75.2%의 테스트 정확도를 달성하며, IRNN과 iRNN을 초월하고 LSTM 성능에 가까워지며, 더 낮은 복잡도를 유지한다.

ABSTRACT

In recent years significant progress has been made in successfully training recurrent neural networks (RNNs) on sequence learning problems involving long range temporal dependencies. The progress has been made on three fronts: (a) Algorithmic improvements involving sophisticated optimization techniques, (b) network design involving complex hidden layer nodes and specialized recurrent layer connections and (c) weight initialization methods. In this paper, we focus on recently proposed weight initialization with identity matrix for the recurrent weights in a RNN. This initialization is specifically proposed for hidden nodes with Rectified Linear Unit (ReLU) non linearity. We offer a simple dynamical systems perspective on weight initialization process, which allows us to propose a modified weight initialization strategy. We show that this initialization technique leads to successfully training RNNs composed of ReLUs. We demonstrate that our proposal produces comparable or better solution for three toy problems involving long range temporal structure: the addition problem, the multiplication problem and the MNIST classification problem using sequence of pixels. In addition, we present results for a benchmark action recognition problem.

연구 동기 및 목표

ReLU 기반 RNN에서 신뢰행렬 초기화의 역동적 시스템 행동을 조사하고, 훈련 안정성에 미치는 영향을 밝히는 것.
IRNN의 은닉 상태가 입력 변동에 민감하여 초모수에 의존도가 높아지는 문제를 해결하는 것.
은닉 상태 역동성을 한 개의 차원 다양체로 압축함으로써 동적 안정성을 높이는 새로운 가중치 초기화 전략을 제안하는 것.
제안된 np-RNN를 장난감 문제와 실제 벤치마크에서 IRNN, iRNN, LSTM과 비교하여 평가하는 것.
LSTM에 비슷한 성능를 보이며 더 낮은 복잡도를 유지하는 RNN의 저비용 대안을 개발하는 것.

제안 방법

신뢰행렬 초기화의 역동적 시스템 분석에 기반하여, ReLU RNN의 순환 가중치에 대한 정규화된 양의 정부호 행렬을 제안한다.
신뢰행렬 초기화 하에서 ReLU RNN의 固定点 역동성을 분석하여 중립적 안정성과 입력 변동에 대한 높은 민감도를 규명한다.
순환 가중치 행렬을 정규화된 양의 정부호 형태로 제약함으로써 동적 민감도를 감소시키는 np-RNN 초기화 전략을 설계한다.
모든 RNN 모델에서 정규화를 위해 RMSProp 최적화와 학습률 스케줄링, 드롭아웃을 활용한다.
UCF-101 행동 인식 벤치마크에서 입력으로 ImageNet에서 사전 학습된 GoogLeNet 특징을 사용한다.
학습률(10⁻⁵에서 10⁻²)과 드롭아웃 비율(0.5, 0.7, 0.9)을 조합하여 그리드 서치를 수행해 초모수를 최적화한다.

실험 결과

연구 질문

RQ1ReLU RNN에서 신뢰행렬 초기화가 은닉 상태의 역동적 안정성에 어떤 영향을 미치는가?
RQ2왜 IRNN 성능은 초모수 설정에 매우 민감한가? 이 문제는 해결될 수 있는가?
RQ3수정된 가중치 초기화 전략이 은닉 상태 민감도를 줄이고 훈련의 견고성을 향상시킬 수 있는가?
RQ4제안된 np-RNN는 장거리 시간 시퀀스 작업에서 IRNN과 iRNN보다 더 나은 성능 또는 동등한 성능을 달성하는가?
RQ5np-RNN는 실제 벤치마크에서 LSTM 성능을 따라잡고, 더 낮은 모델 복잡도를 유지할 수 있는가?

주요 결과

UCF-101 행동 인식 벤치마크에서 np-RNN는 75.2%의 테스트 정확도를 달성하여 IRNN(67%)와 iRNN(56.6%)를 모두 초월한다.
학습률과 드롭아웃 값에 따른 검증 정확도 그래프를 통해 np-RNN는 IRNN과 iRNN보다 초모수 설정에 더 견고한 성능를 보인다.
MNIST 픽셀 시퀀스 작업에서 np-RNN는 모든 평가 벤치마크에서 IRNN과 iRNN와 동등하거나 더 뛰어난 성능를 보인다.
정규화된 양의 정부호 초기화는 입력 변동에 대한 은닉 상태 민감도를 감소시켜 더 안정적인 훈련 역동성을 이끌어낸다.
np-RNN는 LSTM(78.5% 테스트 정확도)에 가까운 성능를 달성하면서도 LSTM보다 4배 더 많은 파라미터를 가지는 것에 비해 더 낮은 계산 복잡도를 유지한다.
제안된 방법은 모바일 플랫폼에서 시퀀스 모델링을 위한 안정적이고 저비용의 LSTM 대체 전략을 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.