Skip to main content
QUICK REVIEW

[논문 리뷰] Higher Order Recurrent Neural Networks

Rohollah Soltani, Hui Jiang|arXiv (Cornell University)|2016. 04. 30.
Neural Networks and Applications인용 수 2
한 줄 요약

이 논문은 여러 다른 가중치를 가진 다중 순환 피드백 경로를 통합함으로써 장기적 의존성 학습을 향상시키는 새로운 RNN 아키텍처인 고차수 순환 신경망(HORNNs)을 소개한다. 이를 통해 더 나은 단기 기억 기능을 구현한다. 펜 트리뱅크 및 text8에서 평가한 결과, HORNNs는 표준 RNN과 LSTMs를 크게 능가하는 최첨단 성능을 달성한다.

ABSTRACT

In this paper, we study novel neural network structures to better model long term dependency in sequential data. We propose to use more memory units to keep track of more preceding states in recurrent neural networks (RNNs), which are all recurrently fed to the hidden layers as feedback through different weighted paths. By extending the popular recurrent structure in RNNs, we provide the models with better short-term memory mechanism to learn long term dependency in sequences. Analogous to digital filters in signal processing, we call these structures as higher order RNNs (HORNNs). Similar to RNNs, HORNNs can also be learned using the back-propagation through time method. HORNNs are generally applicable to a variety of sequence modelling tasks. In this work, we have examined HORNNs for the language modeling task using two popular data sets, namely the Penn Treebank (PTB) and English text8 data sets. Experimental results have shown that the proposed HORNNs yield the state-of-the-art performance on both data sets, significantly outperforming the regular RNNs as well as the popular LSTMs.

연구 동기 및 목표

  • 시계열 데이터에서 장기적 의존성을 포착하는 데에 표준 RNN의 한계를 해결하기 위해.
  • 더 나은 시계열 모델링을 위해 순환 네트워크의 단기 기억 메커니즘을 향상시키기 위해.
  • 복잡한 게이팅 메커니즘에 의존하지 않고 표준 RNN을 확장할 수 있는 일반화 가능한 아키텍처를 개발하기 위해.
  • 성능 향상을 입증하기 위해 표준 언어 모델링 벤치마크에서 제안된 모델을 평가하기 위해.

제안 방법

  • HORNNs는 이전의 다양한 은닉 상태를 저장하고 순환적으로 피드백하는 다중 메모리 유닛을 도입함으로써 표준 RNN을 확장한다.
  • 각 이전 상태는 별도의 가중치 경로를 통해 피드백되며, 신호 처리에서 디지털 필터의 동작을 모방한다.
  • 모델은 백프로파게이션 스트레칭 타임(BPTT)과 호환되어 종단 간 훈련이 가능하다.
  • 피드백 경로는 훈련 중에 학습되며, 다양한 과거 상태 기여도를 동적으로 가중할 수 있도록 한다.
  • 모델은 일반 목적용으로 설계되어 다양한 시계열 모델링 작업에 적용 가능하다.
  • 구조는 고차수 필터 응답에서 영감을 얻어 더 rich한 시간적 표현을 가능하게 한다.

실험 결과

연구 질문

  • RQ1다중 순환 피드백 경로를 가진 수정된 RNN 아키텍처가 시계열 데이터에서 장기적 의존성 학습을 향상시킬 수 있는가?
  • RQ2HORNN 아키텍처는 언어 모델링 과제에서 표준 RNN과 LSTMs와 비교해 어떻게 성능을 낼 수 있는가?
  • RQ3다중 경로 피드백 메커니즘은 순환 네트워크의 단기 기억 용량을 얼마나 향상시킬 수 있는가?
  • RQ4HORNN 설계는 다양한 시계열 모델링 벤치마크에서 일반화되는가?

주요 결과

  • HORNNs는 펜 트리뱅크(PTB) 언어 모델링 벤치마크에서 최첨단 성능을 달성한다.
  • HORNNs는 PTB 데이터셋에서 표준 RNN과 LSTMs를 크게 능가한다.
  • 모델은 영어 text8 데이터셋에서도 뛰어난 성능을 기록하여 다양한 시계열 길이에 걸쳐 강력한 일반화 능력을 보여준다.
  • 성능 향상은 다수의 가중치가 부여된 피드백 경로로 인해 향상된 단기 기억 메커니즘이 기여한 것으로 기인된다.
  • HORNN 아키텍처는 BPTT와 같은 표준 훈련 절차와 호환되어 실용적인 사용성을 확보한다.
  • 결과는 피드백 구조의 아키텍처적 개선이 LSTMs와 같은 더 복잡한 게이팅 메커니즘의 성능을 뛰어넘을 수 있음을 확인한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.