Skip to main content
QUICK REVIEW

[论文解读] An Optimal Control Approach to Deep Learning and Applications to Discrete-Weight Neural Networks

Qianxiao Li, Shuji Hao|arXiv (Cornell University)|Mar 4, 2018
Stochastic Gradient Optimization Techniques参考文献 47被引用 39
一句话总结

本文将深度学习建模为使用庞特里亚金最大值原理的离散时间最优控制问题,提出一种无需梯度的逐次逼近法(MSA)来训练神经网络。该方法在实现高度稀疏的三值权重的同时,取得了具有竞争力的性能,适用于低内存设备的高效部署。

ABSTRACT

Deep learning is formulated as a discrete-time optimal control problem. This allows one to characterize necessary conditions for optimality and develop training algorithms that do not rely on gradients with respect to the trainable parameters. In particular, we introduce the discrete-time method of successive approximations (MSA), which is based on the Pontryagin's maximum principle, for training neural networks. A rigorous error estimate for the discrete MSA is obtained, which sheds light on its dynamics and the means to stabilize the algorithm. The developed methods are applied to train, in a rather principled way, neural networks with weights that are constrained to take values in a discrete set. We obtain competitive performance and interestingly, very sparse weights in the case of ternary networks, which may be useful in model deployment in low-memory devices.

研究动机与目标

  • 将深度学习训练重新表述为离散时间最优控制问题,以实现无梯度优化。
  • 基于庞特里亚金最大值原理,开发一种稳定且具有收敛性保证的逐次逼近法(MSA)用于神经网络训练。
  • 将该方法应用于训练具有离散取值权重的神经网络,特别是二值和三值网络,以实现高效推理。
  • 通过严格的误差估计分析 MSA 算法的动力学与稳定性。
  • 证明该方法可生成稀疏且高性能的模型,适用于资源受限设备的部署。

提出的方法

  • 将深度前馈神经网络的训练建模为由逐层变换控制的状态动力学的离散时间最优控制问题。
  • 应用离散时间庞特里亚金最大值原理(PMP),推导控制参数(权重)的必要最优性条件。
  • 提出一种基于 PMP 的逐次逼近法(MSA),通过基于哈密顿量的更新规则迭代更新权重。
  • 引入一个随时间递减的正则化参数 $\rho_{k,t}$ 以稳定 MSA 并防止权重更新中的振荡。
  • 使用指数移动平均估计梯度,并将该算法应用于具有固定权重集合的二值和三值网络。
  • 对离散权重采用基于符号的更新规则,并在三值网络中引入促进稀疏性的项 $\lambda_t$。

实验结果

研究问题

  • RQ1深度学习能否被有效重构为离散时间最优控制问题,以实现无梯度训练?
  • RQ2基于庞特里亚金最大值原理的逐次逼近法(MSA)如何实现稳定并保证收敛于深度神经网络?
  • RQ3正则化参数 $\rho_{k,t}$ 对 MSA 算法的收敛性和稳定性有何影响?
  • RQ4所提方法能否在实现高权重稀疏性的同时,训练出具有竞争力准确率的二值和三值神经网络?
  • RQ5当应用于非光滑激活函数和损失函数(如 ReLU 和平滑铰链损失)时,该算法表现如何?

主要发现

  • 所提出的 MSA 算法在 MNIST、CIFAR-10 和 SVHN 数据集上训练二值和三值网络时,取得了具有竞争力的测试准确率。
  • 对于三值网络,该方法生成了高度稀疏的模型,其中显著比例的权重被设为零,有利于低内存设备的部署。
  • 即使在非光滑损失函数和激活函数(如 ReLU 和平方平滑铰链损失)下,该算法仍保持稳定且具有收敛性。
  • 递减的正则化参数 $\rho_{k,t}$ 对稳定 MSA 和防止权重更新振荡至关重要。
  • 批量归一化被证明对实现良好性能至关重要,与先前研究一致,并得到理论分析支持。
  • 该方法无需反向传播或对网络权重进行梯度计算,从而实现了无需可微参数的训练。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。