[论文解读] Convergent Block Coordinate Descent for Training Tikhonov Regularized Deep Neural Networks
本文提出了一种收敛的块坐标下降(BCD)算法,用于训练带有Tikhonov正则化的ReLU激活深度神经网络,通过将ReLU提升到更高维空间,将非凸训练问题重构为多凸优化问题。该方法保证以R线性收敛速率全局收敛至驻点,并在MNIST数据集上实现了优于SGD的测试误差率,表现出更优的泛化性能。
By lifting the ReLU function into a higher dimensional space, we develop a smooth multi-convex formulation for training feed-forward deep neural networks (DNNs). This allows us to develop a block coordinate descent (BCD) training algorithm consisting of a sequence of numerically well-behaved convex optimizations. Using ideas from proximal point methods in convex analysis, we prove that this BCD algorithm will converge globally to a stationary point with R-linear convergence rate of order one. In experiments with the MNIST database, DNNs trained with this BCD algorithm consistently yielded better test-set error rates than identical DNN architectures trained via all the stochastic gradient descent (SGD) variants in the Caffe toolbox.
研究动机与目标
- 解决使用ReLU激活函数训练深度神经网络(DNN)时存在的非凸性与梯度消失问题。
- 开发一种DNN的全局收敛优化方法,避免陷入局部极小值与鞍点。
- 通过引入Tikhonov正则化,将训练问题重构为多凸问题,以提升泛化性能。
- 为DNN设置下的块坐标下降算法提供理论收敛保证,收敛速率为R线性。
- 通过实证验证,所提方法在测试精度上优于标准SGD求解器。
提出的方法
- 将ReLU激活函数提升至更高维空间,以构建DNN训练问题的平滑多凸形式。
- 引入一种编码网络结构与权重信息的Tikhonov正则化矩阵,实现目标函数的结构化分解。
- 将训练目标分解为三个凸子问题:Tikhonov正则化反问题、最小二乘回归与分类器学习。
- 通过依次优化三个块(隐藏单元权重、输出权重与网络参数)来应用块坐标下降(BCD)算法。
- 借鉴增广拉格朗日法思想,确保每个子优化步骤的数值稳定性和收敛性。
- 采用步长递减的线搜索策略以保证收敛性,理论分析表明其收敛速率为一阶R线性。
实验结果
研究问题
- RQ1基于Tikhonov正则化的ReLU型DNN的多凸重构是否能实现训练过程的全局收敛?
- RQ2应用于该重构问题的块坐标下降算法是否能全局收敛至驻点,并具备可证明的收敛速率?
- RQ3该方法是否能在测试精度与泛化性能上优于标准SGD训练方法?
- RQ4所提方法如何缓解深层网络中的梯度消失问题?
- RQ5在所提重构形式下,BCD算法的收敛速率是否为一阶R线性?
主要发现
- 所提BCD算法经近似点法分析证明,能以一阶R线性收敛速率全局收敛至驻点。
- 该方法数值稳定,由于每个子问题中建模了长程依赖关系,因此不受梯度消失问题影响。
- 在MNIST数据集上,使用BCD算法训练的DNN在测试集上误差率始终低于Caffe工具箱中所有SGD变体训练的相同架构网络。
- Tikhonov正则化矩阵能有效编码网络结构与参数化信息,实现训练目标的结构化凸分解。
- 该算法适用于训练密集型与稀疏型DNN,展现出对网络拓扑的广泛适用性。
- 收敛性分析成立的前提是每个子问题具有唯一解,且步长序列满足特定衰减条件(如θt = 1/t^p,其中p > 1)。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。