[论文解读] Learning Long Term Dependencies via Fourier Recurrent Units
本文提出了一种新型RNN架构——傅里叶循环单元(FRU),通过使用傅里叶基函数对隐藏状态进行时间上的总结,实现稳定的梯度和强大的长期依赖学习能力。FRU在MNIST和IMDB等序列任务上达到最先进性能,参数量显著少于LSTM和SRU,在置换MNIST上性能优于基线模型高达9.47%,在IMDB上高出3.07%,同时保持更快、更平滑的训练过程。
It is a known fact that training recurrent neural networks for tasks that have long term dependencies is challenging. One of the main reasons is the vanishing or exploding gradient problem, which prevents gradient information from propagating to early layers. In this paper we propose a simple recurrent architecture, the Fourier Recurrent Unit (FRU), that stabilizes the gradients that arise in its training while giving us stronger expressive power. Specifically, FRU summarizes the hidden states $h^{(t)}$ along the temporal dimension with Fourier basis functions. This allows gradients to easily reach any layer due to FRU's residual learning structure and the global support of trigonometric functions. We show that FRU has gradient lower and upper bounds independent of temporal dimension. We also show the strong expressivity of sparse Fourier basis, from which FRU obtains its strong expressive power. Our experimental study also demonstrates that with fewer parameters the proposed architecture outperforms other recurrent architectures on many tasks.
研究动机与目标
- 解决循环神经网络(RNNs)中阻碍长期依赖学习的梯度消失和梯度爆炸问题。
- 开发一种表达能力强于现有模型(如SRU和LSTM)的循环架构,尤其适用于长序列。
- 通过确保梯度边界与序列长度无关,实现稳定的反向传播时间传播。
- 证明稀疏傅里叶基表示可在保持计算效率的同时提供强大的表达能力。
- 展示FRU在基准序列数据集上以更少参数实现优于LSTM和SRU的性能。
提出的方法
- FRU通过傅里叶基函数的线性组合对时间上的隐藏状态进行总结,实现全局、长距离的上下文建模。
- 该架构采用残差学习结构,使梯度能无衰减地反向传播至所有层。
- 它使用一组可学习的频率分量(k)来表示过去的隐藏状态,每个频率分量捕捉不同的时间尺度。
- 模型通过傅里叶系数对过去隐藏状态进行统计总结,这些系数在每个时间步通过可学习变换进行更新。
- 三角函数的使用确保了全局支持,允许访问序列历史中的任意点,这与SRU等指数衰减方法不同。
- 理论分析表明,在线性情况下,FRU的梯度上下界保持恒定,且与序列长度T无关。
实验结果
研究问题
- RQ1使用傅里叶基函数的循环架构能否稳定梯度,防止长序列中的梯度消失/爆炸问题?
- RQ2与SRU中使用的指数移动平均相比,稀疏傅里叶基函数是否能提供更强的表达能力?
- RQ3FRU能否在序列建模任务上实现优于LSTM和SRU的性能,同时显著减少参数量?
- RQ4残差结构与傅里叶表示相结合,如何影响训练稳定性和收敛速度?
- RQ5FRU在合成和真实世界序列数据中,能在多大程度上捕捉长期依赖关系?
主要发现
- 在置换MNIST数据集上,FRU达到96.93%的测试准确率,优于SRU(92.21%)、LSTM(90.26%)和RNN(87.46%),最高提升达9.47%。
- 在IMDB电影评论数据集上,FRU使用5个频率分量达到86.71%的准确率,超越SRU(86.40%)和LSTM(83.64%),且仅需12K参数——比SRU少19倍,比LSTM少10倍。
- 极端情况下的FRU(仅使用零频率,记为FRU₁,₁₀)仅用4K参数即达到86.44%的准确率,参数量仅为RNN的1/8,且收敛更快。
- FRU在所有数据集上的训练曲线更平滑,收敛速度优于所有基线模型,表明优化稳定性得到提升。
- 理论分析证实,FRU的梯度范数边界(上下界)保持恒定,与序列长度T无关,而RNN和SRU的边界随T呈指数增长。
- 在合成数据上的实验表明,FRU能准确建模混合正弦和多项式序列,展现出强大的表达能力。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。