Skip to main content
QUICK REVIEW

[论文解读] Cheap Orthogonal Constraints in Neural Networks: A Simple Parametrization of the Orthogonal and Unitary Group

Mario Lezcano-Casado, David Martı́nez-Rubio|arXiv (Cornell University)|Jan 24, 2019
Model Reduction and Neural Networks参考文献 38被引用 59
一句话总结

该论文提出基于指数映射的参数化,用于在正交和酉群上进行优化,使RNN能够进行无约束的一阶优化,训练稳健高效且结果具有竞争力。它展示了 exprnn 架构并提供实现细节以及与现有方法的实证比较。

ABSTRACT

We introduce a novel approach to perform first-order optimization with orthogonal and unitary constraints. This approach is based on a parametrization stemming from Lie group theory through the exponential map. The parametrization transforms the constrained optimization problem into an unconstrained one over a Euclidean space, for which common first-order optimization methods can be used. The theoretical results presented are general enough to cover the special orthogonal group, the unitary group and, in general, any connected compact Lie group. We discuss how this and other parametrizations can be computed efficiently through an implementation trick, making numerically complex parametrizations usable at a negligible runtime cost in neural networks. In particular, we apply our results to RNNs with orthogonal recurrent weights, yielding a new architecture called expRNN. We demonstrate how our method constitutes a more robust approach to optimization with orthogonal constraints, showing faster, accurate, and more stable convergence in several tasks designed to test RNNs.

研究动机与目标

  • 在正交/酉约束下推动鲁棒优化,以减轻 RNN 的梯度爆炸/梯度消失问题。
  • 提出李群学的指数参数化,将受约束的问题转化为无约束的欧几里得问题。
  • 提供实现技巧,使在神经网络中的实际、低开销使用成为可能。
  • 在标准的长序列任务上展示相对于现有方法的实证优势。

提出的方法

  • 通过矩阵指数 exp(A) 将正交/酉群 G (SO(n), U(n)) 参数化,其中 A 来自李代数(斜对称/斜埃米尔特ian)。
  • 证明指数映射在连通紧李群上的满射性,并讨论参数化引起的度量变化。
  • 使用带有尺度平方的Padé近似来高效计算 exp(A) 及其梯度。
  • 推导 f(exp(A)) 的精确梯度公式,以实现机器精度梯度(Proposition 4.1)。
  • 定义指数型RNN(exprnn),令 h_{t+1}=sigma(exp(A) h_t + T x_{t+1}),A 为斜对称,T 为线性映射。
  • 讨论初始化和用于优化的实际截断(retractions)。

实验结果

研究问题

  • RQ1一个基于矩阵指数的参数化是否可以为神经网络中的硬性正交约束提供鲁棒且廉价的替代方案?
  • RQ2通过指数映射对斜对称矩阵进行优化是否能改善具有正交约束的 RNN 的收敛性、稳定性和泛化?
  • RQ3在实践中指数参数化与现有方法(Cayley 变换、黎曼梯度法等)相比有何差异?
  • RQ4实现和初始化此类参数化在神经网络中的实际技巧有哪些?

主要发现

  • 指数参数化在多个任务上使正交 RNN(exprnn)收敛更快、更加稳定。
  • 参数化使得在不强制硬正交的情况下也可使用通用优化器,实际运行时开销可忽略。
  • 经验结果显示 exprnn 在复制记忆、像素级MNIST、timIt 语音任务的若干模型规模上优于或接近竞争方法。
  • 基于 Padé 的指数近似结合尺度平方提供了机器精度的 exp 及精确梯度计算,提升数值稳定性。
  • 初始化策略(如块对角斜对称块)有助于利用特征值结构来获得更好的训练动力学。
  • 该方法在避免某些 Cayley 变换方法中出现的退化现象的同时,达到了具有竞争力或更优的性能。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。