[论文解读] Dynamical Isometry and a Mean Field Theory of LSTMs and GRUs
本文提出了LSTM和GRU中信号传播的平均场理论,推导出一种新颖的参数初始化方法,实现了动态等距性——确保前向与反向信号传播的稳定性——从而能够在长序列任务上实现有效训练。该方法显著提升了训练速度与泛化性能,在长序列任务上的表现较标准初始化方法提升了一个数量级以上。
Training recurrent neural networks (RNNs) on long sequence tasks is plagued with difficulties arising from the exponential explosion or vanishing of signals as they propagate forward or backward through the network. Many techniques have been proposed to ameliorate these issues, including various algorithmic and architectural modifications. Two of the most successful RNN architectures, the LSTM and the GRU, do exhibit modest improvements over vanilla RNN cells, but they still suffer from instabilities when trained on very long sequences. In this work, we develop a mean field theory of signal propagation in LSTMs and GRUs that enables us to calculate the time scales for signal propagation as well as the spectral properties of the state-to-state Jacobians. By optimizing these quantities in terms of the initialization hyperparameters, we derive a novel initialization scheme that eliminates or reduces training instabilities. We demonstrate the efficacy of our initialization scheme on multiple sequence tasks, on which it enables successful training while a standard initialization either fails completely or is orders of magnitude slower. We also observe a beneficial effect on generalization performance using this new initialization.
研究动机与目标
- 解决在长序列任务上训练LSTM和GRU时因梯度消失或爆炸导致的不稳定性问题。
- 建立一个理论框架,用于分析循环神经网络中的信号传播特性与雅可比矩阵谱性质。
- 推导出一种基于原理的参数初始化方案,确保动态等距性并提升模型的可训练性。
- 证明优化后的初始化方法能够显著提升训练效率与泛化性能。
提出的方法
- 利用平均场理论建模LSTM和GRU中的前向信号传播与反向梯度稳定性。
- 使用随机矩阵理论分析状态转移雅可比矩阵的谱性质,以确保梯度传播的稳定性。
- 推导在不同初始化超参数下相关性演化与奇异值矩的不动点方程。
- 优化初始化超参数(如权重与偏置的均值与方差),以实现动态等距性。
- 采用采样算法近似计算LSTM中平稳细胞状态分布,以实现精确的矩计算。
- 通过在MNIST和CIFAR-10任务上进行不同序列长度的仿真与实验,验证理论预测。
实验结果
研究问题
- RQ1为实现LSTM和GRU中稳定的信号传播,需要哪些初始化超参数?
- RQ2状态转移雅可比矩阵的谱性质如何影响循环网络的训练稳定性?
- RQ3平均场理论能否准确预测信号传播的时间尺度与梯度稳定性?
- RQ4基于该理论推导出的临界初始化方案是否能提升长序列任务上的训练速度与泛化性能?
主要发现
- 所提出的初始化方案使得LSTM在长序列任务上的训练成为可能,而标准初始化方法则失败或训练速度呈指数级下降。
- 在MNIST和CIFAR-10等长序列任务上,临界初始化将训练时间减少了数个数量级。
- 通过平衡权重与偏置分布的均值与方差,该方法实现了动态等距性,稳定了前向与反向信号传播。
- 实验结果表明,理论预测的信号传播时间尺度与训练性能高度相关,尤其在权重未共享的假设下表现更明显。
- 理论预测与仿真结果高度吻合,验证了平均场近似在GRUs与LSTMs中的有效性。
- 优化后的初始化方案带来了更好的泛化性能,表明其引导优化过程朝向更具泛化能力的解空间。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。