[论文解读] Full-Capacity Unitary Recurrent Neural Networks
本文提出了全容量幺正循环神经网络(uRNNs),在 Stiefel 流形上对所有单位矩阵进行优化,证明当 N>7 时,受限容量参数化无法覆盖所有单位矩阵,并展示在 LSTMs 和先前的受限-uRNNs 上的性能更优。
Recurrent neural networks are powerful models for processing sequential data, but they are generally plagued by vanishing and exploding gradient problems. Unitary recurrent neural networks (uRNNs), which use unitary recurrence matrices, have recently been proposed as a means to avoid these issues. However, in previous experiments, the recurrence matrices were restricted to be a product of parameterized unitary matrices, and an open question remains: when does such a parameterization fail to represent all unitary matrices, and how does this restricted representational capacity limit what can be learned? To address this question, we propose full-capacity uRNNs that optimize their recurrence matrix over all unitary matrices, leading to significantly improved performance over uRNNs that use a restricted-capacity recurrence matrix. Our contribution consists of two main components. First, we provide a theoretical argument to determine if a unitary parameterization has restricted capacity. Using this argument, we show that a recently proposed unitary parameterization has restricted capacity for hidden state dimension greater than 7. Second, we show how a complete, full-capacity unitary recurrence matrix can be optimized over the differentiable manifold of unitary matrices. The resulting multiplicative gradient step is very simple and does not require gradient clipping or learning rate adaptation. We confirm the utility of our claims by empirically evaluating our new full-capacity uRNNs on both synthetic and natural data, achieving superior performance compared to both LSTMs and the original restricted-capacity uRNNs.
研究动机与目标
- 用单位递归来激励并解决循环网络中的梯度消失/爆炸问题。
- 评估现有的单位参数化是否能完全覆盖单位群。
- 在单位流形上发展优化以实现全容量的 uRNN。
- 在多样任务上对比全容量 uRNN、LSTMs 及受限容量 uRNN 的经验表现。
提出的方法
- 本文分析了结构化的单位参数化的容量,并用 Sard 定理证明在维度 N>7 时它们是受限的。
- 它引入在 Stiefel 流形上对单位矩阵的优化,以通过乘法 Cayley 风格更新实现对全容量 W 的训练 (I + (lambda/2)A)^{-1}(I - (lambda/2)A)W,其中 A 来自梯度。
- 它对所有参数使用 RMSprop,除了递归矩阵外,其在 Stiefel 流形上采用固定学习率更新且不进行梯度裁剪。
- 它在 Theano 中实现该方法,并为公平比较仿照受限 uRNN 基线。
- 实验覆盖合成系统识别与长期记忆任务、语音 STFT 帧预测,以及逐像素的 MNIST。
实验结果
研究问题
- RQ1受限容量的单位参数化是否能表示隐藏状态维度为 N 时的所有单位矩阵?
- RQ2训练全容量的单位递归矩阵是否在学习与泛化上优于受限容量的 uRNN?
- RQ3在长距离依赖任务和真实世界数据上,全容量 uRNN 相对于 LSTMs 的表现如何?
- RQ4在合成与自然数据任务中比较受限与全容量 uRNN 时有哪些经验性提升?
主要发现
- 在 N>7 时,受限容量参数化无法覆盖所有单位矩阵。
- 全容量 uRNN 在若干任务上优于受限容量 uRNN 和 LSTM,包括长期记忆和语音帧预测。
- 在合成系统识别中,对于 N>7,全容量 uRNN 的测试均方误差低于受限容量变体。
- 在带有长序列的拷贝记忆问题中,全容量 uRNN 收敛到零交叉熵,而受限容量变体则没有。
- 在语音数据(STFT 对数幅值预测)上,全容量 uRNN 比具有相似参数的受限容量对手具有更低的 MSE 和更好的感知指标。
- 在逐像素 MNIST 上,具有可比参数数量的全容量 uRNN 在某些设置下可达到或超过 LSTM 的性能,且通常优于受限容量 uRNN。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。