Skip to main content
QUICK REVIEW

[论文解读] Convergent Block Coordinate Descent for Training Tikhonov Regularized Deep Neural Networks

Ziming Zhang, Matthew Brand|arXiv (Cornell University)|Nov 20, 2017
Stochastic Gradient Optimization Techniques参考文献 32被引用 25
一句话总结

本文提出了一种收敛的块坐标下降(BCD)算法,用于训练带有Tikhonov正则化的ReLU激活深度神经网络,通过将ReLU提升到更高维空间,将非凸训练问题重构为多凸优化问题。该方法保证以R线性收敛速率全局收敛至驻点,并在MNIST数据集上实现了优于SGD的测试误差率,表现出更优的泛化性能。

ABSTRACT

By lifting the ReLU function into a higher dimensional space, we develop a smooth multi-convex formulation for training feed-forward deep neural networks (DNNs). This allows us to develop a block coordinate descent (BCD) training algorithm consisting of a sequence of numerically well-behaved convex optimizations. Using ideas from proximal point methods in convex analysis, we prove that this BCD algorithm will converge globally to a stationary point with R-linear convergence rate of order one. In experiments with the MNIST database, DNNs trained with this BCD algorithm consistently yielded better test-set error rates than identical DNN architectures trained via all the stochastic gradient descent (SGD) variants in the Caffe toolbox.

研究动机与目标

  • 解决使用ReLU激活函数训练深度神经网络(DNN)时存在的非凸性与梯度消失问题。
  • 开发一种DNN的全局收敛优化方法,避免陷入局部极小值与鞍点。
  • 通过引入Tikhonov正则化,将训练问题重构为多凸问题,以提升泛化性能。
  • 为DNN设置下的块坐标下降算法提供理论收敛保证,收敛速率为R线性。
  • 通过实证验证,所提方法在测试精度上优于标准SGD求解器。

提出的方法

  • 将ReLU激活函数提升至更高维空间,以构建DNN训练问题的平滑多凸形式。
  • 引入一种编码网络结构与权重信息的Tikhonov正则化矩阵,实现目标函数的结构化分解。
  • 将训练目标分解为三个凸子问题:Tikhonov正则化反问题、最小二乘回归与分类器学习。
  • 通过依次优化三个块(隐藏单元权重、输出权重与网络参数)来应用块坐标下降(BCD)算法。
  • 借鉴增广拉格朗日法思想,确保每个子优化步骤的数值稳定性和收敛性。
  • 采用步长递减的线搜索策略以保证收敛性,理论分析表明其收敛速率为一阶R线性。

实验结果

研究问题

  • RQ1基于Tikhonov正则化的ReLU型DNN的多凸重构是否能实现训练过程的全局收敛?
  • RQ2应用于该重构问题的块坐标下降算法是否能全局收敛至驻点,并具备可证明的收敛速率?
  • RQ3该方法是否能在测试精度与泛化性能上优于标准SGD训练方法?
  • RQ4所提方法如何缓解深层网络中的梯度消失问题?
  • RQ5在所提重构形式下,BCD算法的收敛速率是否为一阶R线性?

主要发现

  • 所提BCD算法经近似点法分析证明,能以一阶R线性收敛速率全局收敛至驻点。
  • 该方法数值稳定,由于每个子问题中建模了长程依赖关系,因此不受梯度消失问题影响。
  • 在MNIST数据集上,使用BCD算法训练的DNN在测试集上误差率始终低于Caffe工具箱中所有SGD变体训练的相同架构网络。
  • Tikhonov正则化矩阵能有效编码网络结构与参数化信息,实现训练目标的结构化凸分解。
  • 该算法适用于训练密集型与稀疏型DNN,展现出对网络拓扑的广泛适用性。
  • 收敛性分析成立的前提是每个子问题具有唯一解,且步长序列满足特定衰减条件(如θt = 1/t^p,其中p > 1)。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。