Skip to main content
QUICK REVIEW

[논문 리뷰] A comparison of LSTM and GRU networks for learning symbolic sequences

Roberto Cahuantzi, Xinye Chen|arXiv (Cornell University)|2021. 07. 05.
Neural Networks and Applications참고 문헌 26인용 수 27
한 줄 요약

본 논문은 다양한 복잡도의 기호 시퀀스 학습에서 LSTM과 GRU RNN을 실험적으로 비교하고 학습률과 유닛 수가 결정적임을 발견하며, 저복잡도 시퀀스에서는 GRU가, 고복잡도 시퀀스에서는 LSTM이 우수하다는 결론을 제시한다.

ABSTRACT

We explore the architecture of recurrent neural networks (RNNs) by studying the complexity of string sequences it is able to memorize. Symbolic sequences of different complexity are generated to simulate RNN training and study parameter configurations with a view to the network's capability of learning and inference. We compare Long Short-Term Memory (LSTM) networks and gated recurrent units (GRUs). We find that an increase in RNN depth does not necessarily result in better memorization capability when the training time is constrained. Our results also indicate that the learning rate and the number of units per layer are among the most important hyper-parameters to be tuned. Generally, GRUs outperform LSTM networks on low-complexity sequences while on high-complexity sequences LSTMs perform better.

연구 동기 및 목표

  • RNN 아키텍처가 다양한 복잡도의 기호 시퀀스를 어떻게 기억하는지 조사한다.
  • 학습률, 층 수, 유닛 수 등의 하이퍼파라미터가 기억 성능에 미치는 영향을 평가한다.
  • 저- 및 고-복잡도 시퀀스 작업에서 LSTM과 GRU의 성능을 비교한다.
  • 기호 시퀀스 학습 작업에서 하이퍼파라미터 튜닝을 가이드하기 위한 인사이트를 제공한다.

제안 방법

  • Kolmogorov 복잡도의 프록시로 LZW 기반 복잡도를 사용하여 제어 가능한 복잡도의 시드 문자열을 생성한다.
  • 시퀀스를 원-핫 벡터로 인코딩하고 슬라이딩 윈도우에서 다음 기호를 예측하도록 RNN을 학습한다.
  • 다양한 정지 기준에서 서로 다른 층 수와 유닛 총합을 갖는 LSTM과 GRU를 비교한다.
  • 지정된 학습률로 Adam 옵티마이저를 사용하고 정확도 또는 손실 기준이 충족되면 학습을 중지한다.
  • 예측 문자열과 검증 문자열 사이의 텍스트 유사도 지표(데마로-레빈슨, 자로-윈클러)를 사용하여 예측 정확도를 평가한다.
  • 실험 재현을 위해 공개 코드와 라이브러리를 제공한다.

실험 결과

연구 질문

  • RQ1학습률이 LSTM과 GRU의 학습 효율성과 기호 시퀀스 기억 정확도에 어떤 영향을 미치는가?
  • RQ2깊이(층 수)가 LSTM과 GRU의 기억 성능 및 학습 시간에 어떤 영향을 주는가?
  • RQ3저복잡도 기호 시퀀스에서 GRU가 LSTM보다 더 우수한가, 그리고 고복잡도에서 이 관계가 역전되는가?
  • RQ4층당 유닛 수가 두 아키텍처의 성능 및 학습 시간에 시퀀스의 복잡도에 따라 어떻게 영향을 주는가?

주요 결과

  • 학습률이 약 0.01일 때 모든 복잡도에서 최적의 학습 시간이 나타난다.
  • 적당한 수의 유닛을 갖는 단-층 RNN이 연구 대상 작업에 충분한 경우가 많다(약 100 유닛).
  • GRU가 저복잡도 시퀀스에서 LSTM보다 우수하며, 고복잡도 시퀀스에서는 LSTM이 GRU보다 우수하다.
  • 깊이를 늘리면 일반적으로 학습 시간이 증가하는 반면 기억 정확도에서 뚜렷한 이득은 보이지 않는다.
  • 고복잡도 시퀀스에서 LSTM이 GRU보다 더 빨리 학습하는 경향이 있고, 저복잡도 시퀀스에서는 GRU가 더 빠르게 학습한다.
  • 두 아키텍처 모두 전반적으로 높은 정확도에 도달하지만, 시퀀스 복잡도에 따라 성능 차이가 생긴다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.