QUICK REVIEW

[论文解读] Efficient Riemannian Optimization on the Stiefel Manifold via the Cayley Transform

Jun Li, Fuxin Li|arXiv (Cornell University)|Feb 4, 2020

Stochastic Gradient Optimization Techniques参考文献 31被引用 29

一句话总结

本文提出了Cayley SGD与Cayley ADAM，两种高效的黎曼优化算法，通过迭代Cayley变换压缩和隐式向量传输，实现对参数矩阵的精确正交约束，用于训练深度神经网络。与现有正交性约束方法相比，该方法在收敛速度和每轮训练时间上均表现更优，同时在CIFAR-10/100及逐像素MNIST任务上保持或提升了模型性能。

ABSTRACT

Strictly enforcing orthonormality constraints on parameter matrices has been shown advantageous in deep learning. This amounts to Riemannian optimization on the Stiefel manifold, which, however, is computationally expensive. To address this challenge, we present two main contributions: (1) A new efficient retraction map based on an iterative Cayley transform for optimization updates, and (2) An implicit vector transport mechanism based on the combination of a projection of the momentum and the Cayley transform on the Stiefel manifold. We specify two new optimization algorithms: Cayley SGD with momentum, and Cayley ADAM on the Stiefel manifold. Convergence of Cayley SGD is theoretically analyzed. Our experiments for CNN training demonstrate that both algorithms: (a) Use less running time per iteration relative to existing approaches that enforce orthonormality of CNN parameters; and (b) Achieve faster convergence rates than the baseline SGD and ADAM algorithms without compromising the performance of the CNN. Cayley SGD and Cayley ADAM are also shown to reduce the training time for optimizing the unitary transition matrices in RNNs.

研究动机与目标

解决深度学习中在Stiefel流形上进行黎曼优化时计算成本过高的问题。
开发一种高效的压缩机制，避免在正交矩阵更新中进行昂贵的矩阵求逆。
通过Cayley变换推导隐式向量传输，实现在Stiefel流形上的动量优化。
将标准SGD与ADAM泛化至Stiefel流形，同时保持收敛性保证与计算效率。
在CNN与RNN上对所提算法进行实证验证，证明其具备更快的收敛速度与更低的每轮训练时间。

提出的方法

提出一种用于Stiefel流形上高效压缩的迭代Cayley变换，以少量矩阵乘法替代昂贵的闭式矩阵求逆。
通过将动量更新置于欧氏空间并结合Cayley变换，推导出一种隐式向量传输机制，避免显式平行传输。
将迭代Cayley压缩与隐式向量传输应用于SGD动量与ADAM，推广为Cayley SGD with momentum与Cayley ADAM。
理论分析证明Cayley SGD在标准假设下的收敛性，预计Cayley ADAM也具有相似收敛行为。
利用迭代Cayley变换在优化过程中保持正交性，通过Frobenius范数误差验证收敛至酉矩阵。
采用基于投影的方法将向量传输表示为切空间投影，利用Cayley变换的隐式投影特性。

实验结果

研究问题

RQ1迭代Cayley变换能否为Stiefel流形上的黎曼优化提供一种计算高效的替代方案，以替代闭式Cayley变换？
RQ2通过Cayley变换实现的隐式向量传输是否能在无需显式平行传输的情况下，有效支持Stiefel流形上的动量优化？
RQ3Cayley SGD与Cayley ADAM在CNN中是否能实现比现有正交性约束方法更快的收敛速度与更低的每轮训练时间？
RQ4所提算法在CNN与RNN中强制实现精确正交性的同时，是否能保持或提升模型性能？
RQ5在数值精度限制下，迭代Cayley变换与闭式版本相比，在训练过程中保持正交性的能力如何？

主要发现

尽管因正交性约束导致每轮计算成本更高，Cayley SGD与Cayley ADAM在VGG与Wide ResNet模型上对CIFAR-10与CIFAR-100的测试中，收敛速度仍快于基线SGD与ADAM。
在全容量酉RNN的逐像素MNIST任务中，所提算法相比闭式Cayley变换，将每轮训练时间减少了高达35%。
当迭代次数s=2时，n=116的Frobenius范数误差为7.384e-6，n=512时为2.562e-5，优于闭式Cayley变换（8.273e-5与3.845e-5），归因于更少的舍入误差。
Cayley SGD与Cayley ADAM在测试精度上达到或优于当前最先进的正交性方法（包括Polar、QR与闭式Cayley），且显著更快。
通过动量与Cayley变换实现的隐式向量传输机制，无需显式向量传输即可维持有效的优化动态，实现稳定高效的训练。
在逐像素MNIST任务中，Cayley SGD与Cayley ADAM分别实现92.8%与96.9%的准确率，每轮训练时间分别为1.42秒与1.50秒（TITAN Xp GPU），优于闭式Cayley方法（2.10秒与2.44秒）。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。