QUICK REVIEW

[論文レビュー] Stable Recurrent Models

J. J. Miller, Moritz Hardt|arXiv (Cornell University)|May 25, 2018

Model Reduction and Neural Networks参考文献 29被引用数 72

ひとこと要約

本論文は安定な再帰モデルを定義し、推論と勾配ベースの学習の両方のためにフィードフォワード網によって良く近似できることを証明し、実証的に安定な変種が複数の系列タスクにおいて不安定なものと同等の性能を示すことを示している。

ABSTRACT

Stability is a fundamental property of dynamical systems, yet to this date it has had little bearing on the practice of recurrent neural networks. In this work, we conduct a thorough investigation of stable recurrent models. Theoretically, we prove stable recurrent neural networks are well approximated by feed-forward networks for the purpose of both inference and training by gradient descent. Empirically, we demonstrate stable recurrent models often perform as well as their unstable counterparts on benchmark sequence tasks. Taken together, these findings shed light on the effective power of recurrent networks and suggest much of sequence learning happens, or can be made to happen, in the stable regime. Moreover, our results help to explain why in many cases practitioners succeed in replacing recurrent models by feed-forward models.

研究の動機と目的

安定な再帰モデルの形式的定義を提供し、一般的なアーキテクチャ（RNNとLSTM）に対する安定性の十分条件を確立する。
安定な再帰モデルが推論と学習の両方のためにフィードフォワードネットワークによって近似可能であることを証明する。
多様な系列タスクで安定モデルと不安定モデルを実証的に評価し、性能と安定性の実際的な影響を評価する。

提案手法

収縮による安定性の定義: すべての h,h',x に対して ||phi_w(h,x) - phi_w(h',x)|| <= lambda ||h - h'|| を満たす λ < 1 が存在する。
リプシッツ連続な非線形性を持つ RNN の安定性条件と LSTM の安定性条件を導出し、安定性を保証するための射影ベースの学習手順を含む。
安定性の下で、再帰モデルとその有限コンテキスト（k ステップ）フィードフォワードの切り捨てが類似した推論を生成すること（y_t ≈ y_t^k）を証明する。
安定性が保たれると、再帰モデル上の勾配降下法は切り捨てられたモデルの勾配降下法をほぼ追従し、N ステップ後に重みの差が有界になることを示す。
学習時に安定性を強制する射影法を提供（RNN にはスペクトルノルム射影、LSTM には行正規化）。

実験結果

リサーチクエスチョン

RQ1安定な再帰モデルは推論と学習の両方のために有限コンテキストのフィードフォワード網によって理論的に近似できるのか。
RQ2一般的な再帰アーキテクチャ（RNN と LSTM）に対する安定性を保証する実用的な十分条件は何か。
RQ3標準的な系列タスク全般で、安定モデルは不安定なモデルと同等の性能を維持するか。
RQ4学習時の安定性強制は再帰モデルの長期記憶を本質的に制限するか。

主な発見

モデル	系列タスク	データセット（指標）	不安定	安定	不安定	安定
RNN	ポリフォニック音楽	JSB Chorales (nll)	8.9	8.9	8.5	8.5
LSTM	スロットフィリング	Atis (F1 score)	94.7	94.7	95.1	94.6
RNN	単語レベルLM	Wikitext-2 (perplexity)	146.7	143.5	95.7	113.2
LSTM	文字レベルLM	Penn Treebank (bpc)	1.8	1.9	1.4	1.9

安定な再帰モデルは隠れ状態の更新において収縮的で、勾配が有界になり、学習可能性が向上する。
安定性の下で、RNN と LSTM は推論に対して有限コンテキストのフィードフォワードモデルで近似でき、学習には勾配降下法で近似できることが、コンテキスト長が増えるにつれて近さが証明可能である。
タスク全般（言語モデリング、ポリフォニック音楽、スロットフィリング）で、安定モデルは不安定なものと同等の性能を達成する；場合によっては小さな性能差が残ることがあり、特に LSTM を用いた言語モデリングで顕著。
データ依存的な安定性概念は、実データ上で名目的には不安定なモデルが実際には安定的な領域で動作することが多く、いわゆる“安定性の代償”を緩和することを示唆する。
安定モデルでは長期記憶が制限され、安定・不安定モデル間の類似した性能は、タスクが長距離依存を必要としないことを意味する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。