QUICK REVIEW

[论文解读] Stable Recurrent Models

J. J. Miller, Moritz Hardt|arXiv (Cornell University)|May 25, 2018

Model Reduction and Neural Networks参考文献 29被引用 72

一句话总结

本论文定义了稳定的循环模型，证明它们可以被前馈网络在推理和基于梯度的训练中良好近似，并在若干序列任务上实证表明稳定变体的表现与不稳定变体相当。

ABSTRACT

Stability is a fundamental property of dynamical systems, yet to this date it has had little bearing on the practice of recurrent neural networks. In this work, we conduct a thorough investigation of stable recurrent models. Theoretically, we prove stable recurrent neural networks are well approximated by feed-forward networks for the purpose of both inference and training by gradient descent. Empirically, we demonstrate stable recurrent models often perform as well as their unstable counterparts on benchmark sequence tasks. Taken together, these findings shed light on the effective power of recurrent networks and suggest much of sequence learning happens, or can be made to happen, in the stable regime. Moreover, our results help to explain why in many cases practitioners succeed in replacing recurrent models by feed-forward models.

研究动机与目标

给出稳定循环模型的形式化定义，并在常见结构（RNN 和 LSTM）上建立稳定性的充分条件。
证明稳定的循环模型在推理和通过梯度下降进行训练时，都可以被前馈网络近似。
通过实证评估稳定与不稳定模型在多样的序列任务上的表现，以评估稳定性的性能影响及实际意义。

提出的方法

通过收缩性来定义稳定性：存在 λ < 1，使对所有 h,h',x 有 ||phi_w(h,x) - phi_w(h',x)|| <= λ ||h - h'||。
推导带有 Lipschitz 非线性函数的 RNN 的稳定性充分条件，以及对 LSTM 的稳定性充分条件，包括一种用于训练时强制稳定性的投影步骤。
证明在稳定性下，循环模型及其有限上下文（k 步）前馈截断产生相似的推断（y_t ≈ y_t^k）。
证明在稳定性下，循环模型上的梯度下降与截断模型的梯度下降高度相符，经过 N 步后权重差异有界。
提供训练时的投影方案（RNN 的谱范数投影；LSTM 的行归一化）以在学习过程中强制稳定。

实验结果

研究问题

RQ1稳定的循环模型是否可以在推理和训练阶段理论上被有限上下文的前馈网络近似？
RQ2对常见循环结构（RNN 与 LSTM）保真地保证稳定性的实际充分条件是什么？
RQ3稳定变体在标准序列任务中的表现是否与不稳定模型相近？
RQ4在训练期间强制稳定性是否会本质上限制循环模型的长时记忆？

主要发现

Model	Sequence Task	Dataset (measure)	Unstable	Stable	Unstable	Stable
RNN	Polyphonic Music	JSB Chorales (nll)	8.9	8.9	8.5	8.5
LSTM	Slot-Filling	Atis (F1 score)	94.7	94.7	95.1	94.6
RNN	Word-level LM	Wikitext-2 (perplexity)	146.7	143.5	95.7	113.2
LSTM	Character-level LM	Penn Treebank (bpc)	1.8	1.9	1.4	1.9

稳定的循环模型在隐藏状态更新上具有收缩性，导致梯度有界并提高可学习性。
在稳定性下，RNNs 和 LSTMs 在推理上可以被有限上下文的前馈模型近似，在训练上可以通过梯度下降实现近似，且随着上下文长度增加可以证明接近度。
在任务（语言建模、复调音乐、槽位填充）中，稳定模型的表现与不稳定模型相当；在某些情况下，存在小幅性能差距，特别是在使用 LSTM 的语言建模任务。
基于数据的稳定性概念表明，在真实数据上，名义上不稳定的模型往往处于稳定状态，从而减轻看起来的“稳定性的代价”。
稳定模型的长时记忆受限，这意味着稳定和不稳定模型表现相近往往说明任务不需要长程依赖。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。