[论文解读] Improving performance of recurrent neural network with relu nonlinearity
本文提出了一种针对基于ReLU的循环神经网络(np-RNN)的归一化正定权重初始化策略,其动机源于对IRNN中单位矩阵初始化的动力系统分析。该方法降低了隐藏状态对输入扰动的敏感性,从而实现更稳定的训练,并在长序列任务中取得更优性能,包括MNIST像素序列任务和UCF-101动作识别任务,其中np-RNN在测试中达到75.2%的准确率,优于IRNN和iRNN,并接近LSTM的性能,同时模型复杂度更低。
In recent years significant progress has been made in successfully training recurrent neural networks (RNNs) on sequence learning problems involving long range temporal dependencies. The progress has been made on three fronts: (a) Algorithmic improvements involving sophisticated optimization techniques, (b) network design involving complex hidden layer nodes and specialized recurrent layer connections and (c) weight initialization methods. In this paper, we focus on recently proposed weight initialization with identity matrix for the recurrent weights in a RNN. This initialization is specifically proposed for hidden nodes with Rectified Linear Unit (ReLU) non linearity. We offer a simple dynamical systems perspective on weight initialization process, which allows us to propose a modified weight initialization strategy. We show that this initialization technique leads to successfully training RNNs composed of ReLUs. We demonstrate that our proposal produces comparable or better solution for three toy problems involving long range temporal structure: the addition problem, the multiplication problem and the MNIST classification problem using sequence of pixels. In addition, we present results for a benchmark action recognition problem.
研究动机与目标
- 研究基于ReLU的RNN(IRNN)中单位矩阵初始化的动力系统行为及其对训练稳定性的影响。
- 解决IRNN隐藏状态对输入扰动高度敏感的问题,该问题导致超参数依赖性增强。
- 提出一种新的权重初始化策略,通过将隐藏状态动力学压缩到一维流形,以稳定隐藏状态动力学。
- 在玩具问题和真实世界基准上评估所提出的np-RNN,与IRNN、iRNN和LSTM进行性能比较。
- 开发一种复杂度更低的RNN替代方案,其在序列学习任务上的性能可与LSTM相媲美。
提出的方法
- 为ReLU RNN中的循环权重提出一种归一化正定权重矩阵,其推导基于对单位矩阵初始化的动力系统分析。
- 分析在单位矩阵初始化下ReLU RNN的不动点动力学,识别出中性稳定性和对输入扰动的高敏感性。
- 设计np-RNN初始化方法,通过将循环权重矩阵约束为归一化正定形式,以降低动力学敏感性。
- 所有RNN模型均采用RMSProp优化算法,并结合学习率调度和Dropout进行正则化。
- 在UCF-101动作识别基准中,使用ImageNet预训练的GoogLeNet特征作为输入。
- 通过网格搜索学习率(10⁻⁵至10⁻²)和Dropout率(0.5、0.7、0.9)来调整超参数。
实验结果
研究问题
- RQ1在ReLU RNN中,单位矩阵初始化如何影响隐藏状态的动力稳定性?
- RQ2为何IRNN性能对超参数选择高度敏感,且能否缓解此问题?
- RQ3是否可通过改进的权重初始化策略降低隐藏状态敏感性并提升训练鲁棒性?
- RQ4所提出的np-RNN在长时序序列任务上的性能是否优于或可与IRNN和iRNN相媲美?
- RQ5np-RNN能否在真实世界基准上实现与LSTM相当的性能,同时保持更低的模型复杂度?
主要发现
- 在UCF-101动作识别基准上,np-RNN达到75.2%的测试准确率,优于IRNN(67%)和iRNN(56.6%)。
- 验证准确率图显示,np-RNN在学习率和Dropout值变化下的性能对超参数选择更具鲁棒性,优于IRNN和iRNN。
- 在MNIST像素序列任务中,np-RNN在所有评估基准上均表现出与IRNN和iRNN相当或更优的性能。
- 归一化正定初始化降低了隐藏状态对输入扰动的敏感性,从而带来更稳定的训练动力学。
- np-RNN在保持比LSTM低得多的计算复杂度的同时,性能接近LSTM(78.5%测试准确率),后者参数量为前者的四倍。
- 所提方法为移动平台上的序列建模提供了一种稳定且低复杂度的LSTM替代方案。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。