QUICK REVIEW

[論文レビュー] A comparison of LSTM and GRU networks for learning symbolic sequences

Roberto Cahuantzi, Xinye Chen|arXiv (Cornell University)|Jul 5, 2021

Neural Networks and Applications参考文献 26被引用数 27

ひとこと要約

本論文は、さまざまな複雑さを持つ記号列の学習において、LSTMとGRU RNNを実証的に比較し、学習率とユニット数が決定的であることを明らかにした。GRUは低複雑度の系列で優れ、LSTMは高複雑度の系列で優れている。

ABSTRACT

We explore the architecture of recurrent neural networks (RNNs) by studying the complexity of string sequences it is able to memorize. Symbolic sequences of different complexity are generated to simulate RNN training and study parameter configurations with a view to the network's capability of learning and inference. We compare Long Short-Term Memory (LSTM) networks and gated recurrent units (GRUs). We find that an increase in RNN depth does not necessarily result in better memorization capability when the training time is constrained. Our results also indicate that the learning rate and the number of units per layer are among the most important hyper-parameters to be tuned. Generally, GRUs outperform LSTM networks on low-complexity sequences while on high-complexity sequences LSTMs perform better.

研究の動機と目的

RNNアーキテクチャが、さまざまな複雑さを持つ記号列をどのように記憶するかを調査する。
学習率、層の数、ユニット数といったハイパーパラメータが記憶性能に与える影響を評価する。
低複雑度および高複雑度の系列タスクにおけるLSTMとGRUの性能を比較する。
記号列学習タスクのハイパーパラメータ調整の指針となる洞察を提供する。

提案手法

Kolmogorovの複雑さの代理としてLZWベースの複雑さを用い、制御可能な複雑さを持つシード文字列を生成する。
シーケンスをワンホットベクトルでエンコードし、スライディングウィンドウで次の記号を予測するようRNNを訓練する。
異なる停止基準の下で、層数とユニット総数を変化させたLSTMとGRUのユニットを比較する。
指定された学習率でAdamオプティマイザを用い、精度または損失の基準を満たした時点でトレーニングを停止する。
予測文字列と検証文字列の間のテキスト類似度指標（Damerau–LevenshteinおよびJaro–Winkler）を用いて予測精度を評価する。
実験を再現するための公開コードとライブラリを提供する。

実験結果

リサーチクエスチョン

RQ1学習率は記号列に対するLSTMとGRUの訓練効率と記憶精度にどう影響するか？
RQ2深さ（層数）の増減がLSTMとGRUの記憶性能と訓練時間にどう影響するか？
RQ3低複雑度の記号列でGRUがLSTMを上回るか、そして高複雑度の系列でこの関係が逆転するか？
RQ4各層のユニット数は、系列の複雑さに応じて両アーキテクチャの性能と訓練時間にどう影響するか？

主な発見

学習率が約0.01付近だと、複雑さを問わず最良の訓練時間をもたらす。
中程度のユニット数（おおよそ100程度）を持つ単一層RNNで、研究対象のタスクはしばしば十分である。
GRUsは低複雑度の系列でLSTMsを上回り、LSTMsは高複雑度の系列でGRUsを上回る。
層を深くすると一般に訓練時間が増加するが、記憶精度の明確な向上は見られない。
LSTMsは高複雑度の系列ではGRUsより訓練が速く、低複雑度の系列ではGRUsの方が訓練が速い。
両アーキテクチャは全体として高い精度を達成するが、性能差はシーケンスの複雑さの変化とともに出現する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。