Skip to main content
QUICK REVIEW

[论文解读] On orthogonality and learning recurrent networks with long term dependencies

Eugene Vorontsov, Chiheb Trabelsi|arXiv (Cornell University)|Jan 31, 2017
Sparse and Compressive Sensing Techniques参考文献 17被引用 114
一句话总结

本文分析将循环权重矩阵约束为正交性如何影响优化、收敛和性能,提出分解的 W = U S V^T,带有奇异值边界和在 Stiefel流形上的测地更新,以在反向传播过程中控制扩张/收缩。

ABSTRACT

It is well known that it is challenging to train deep neural networks and recurrent neural networks for tasks that exhibit long term dependencies. The vanishing or exploding gradient problem is a well known issue associated with these challenges. One approach to addressing vanishing and exploding gradients is to use either soft or hard constraints on weight matrices so as to encourage or enforce orthogonality. Orthogonal matrices preserve gradient norm during backpropagation and may therefore be a desirable property. This paper explores issues with optimization convergence, speed and gradient stability when encouraging or enforcing orthogonality. To perform this analysis, we propose a weight matrix factorization and parameterization strategy through which we can bound matrix norms and therein control the degree of expansivity induced during backpropagation. We find that hard constraints on orthogonality can negatively affect the speed of convergence and model performance.

研究动机与目标

  • 研究硬正交性约束在具有长期依赖的循环网络中的学习动力学的影响。
  • 开发分解权重参数化以在反向传播中约束扩张/收缩。
  • 评估放宽/软化正交性对收敛速度和任务性能的影响,在记忆密集型与真实数据任务上。
  • 在合成和真实任务中,检验不同边距与激活下的谱演化与梯度行为。

提出的方法

  • 用 W = U S V^T 参数化权重矩阵,其中 U 和 V 为正交,S 包含奇异值。
  • 使用 Cayley 变换在 Stiefel流形上保持 U 和 V 的正交性(测地梯度下降)。
  • 通过对角线在 1 附近设定边距 m 的对数参数化 s_i = 2m(σ(p_i) - 0.5) + 1,并调整学习率以考虑边距。
  • 通过在受控边距下在非流形更新 S 以允许偏离正交性;对光谱更新进行归一化以管理步长。
  • 在合成记忆任务(复制、添加)和真实数据(顺序 MNIST/pMNIST,PTB 字符预测)之间比较硬(基于边距)和软正交性约束。
  • 采用 RMSprop 与 geoSGD,指定学习率;应用梯度裁剪和权重衰减;测试 tanh、ReLU、PReLU 与 OPLU 激活。

实验结果

研究问题

  • RQ1在循环权重矩阵中强制硬正交性是否能改善梯度流和在长序列任务中的训练稳定性?
  • RQ2边距有界的奇异值参数化是否在约束谱范数和梯度扩张的同时保持表达能力?
  • RQ3硬约束与软正交性约束如何影响在合成记忆任务和真实世界序列任务上的收敛速度与最终准确性?
  • RQ4在 U 与 V 的测地更新结合谱边距调整对学习动态和任务性能的影响?

主要发现

  • 硬正交性保证稳定的梯度范数,但在某些任务上可能降低收敛速度并影响性能。
  • 通过谱边距放宽正交性约束通常加快收敛并提高记忆任务如复制/添加和顺序 MNIST 的性能。
  • 非线性激活和激活选择与谱约束相互作用,某些激活(如 tanh、ReLU、OPLU)对记忆任务的影响不同。
  • 在边距下,奇异值分布倾向于保持在规定的范围内,正交初始化的模型在长期记忆任务训练期间谱接近单位。
  • 对于 PTB 字符预测,限制偏离正交性可能有利,表明正交性约束的任务相关效应。
  • 更大的谱边距在非常长的序列上可能阻碍收敛,而较小的边距(如 m = 0.1)在 MNIST 任务上通常得到最佳结果。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。