QUICK REVIEW

[论文解读] Convergent Block Coordinate Descent for Training Tikhonov Regularized Deep Neural Networks

Ziming Zhang, Matthew Brand|arXiv (Cornell University)|Nov 20, 2017

Stochastic Gradient Optimization Techniques参考文献 32被引用 25

一句话总结

本文提出了一种收敛的块坐标下降（BCD）算法，用于训练带有Tikhonov正则化的ReLU激活深度神经网络，通过将ReLU提升到更高维空间，将非凸训练问题重构为多凸优化问题。该方法保证以R线性收敛速率全局收敛至驻点，并在MNIST数据集上实现了优于SGD的测试误差率，表现出更优的泛化性能。

ABSTRACT

By lifting the ReLU function into a higher dimensional space, we develop a smooth multi-convex formulation for training feed-forward deep neural networks (DNNs). This allows us to develop a block coordinate descent (BCD) training algorithm consisting of a sequence of numerically well-behaved convex optimizations. Using ideas from proximal point methods in convex analysis, we prove that this BCD algorithm will converge globally to a stationary point with R-linear convergence rate of order one. In experiments with the MNIST database, DNNs trained with this BCD algorithm consistently yielded better test-set error rates than identical DNN architectures trained via all the stochastic gradient descent (SGD) variants in the Caffe toolbox.

研究动机与目标

解决使用ReLU激活函数训练深度神经网络（DNN）时存在的非凸性与梯度消失问题。
开发一种DNN的全局收敛优化方法，避免陷入局部极小值与鞍点。
通过引入Tikhonov正则化，将训练问题重构为多凸问题，以提升泛化性能。
为DNN设置下的块坐标下降算法提供理论收敛保证，收敛速率为R线性。
通过实证验证，所提方法在测试精度上优于标准SGD求解器。

提出的方法

将ReLU激活函数提升至更高维空间，以构建DNN训练问题的平滑多凸形式。
引入一种编码网络结构与权重信息的Tikhonov正则化矩阵，实现目标函数的结构化分解。
将训练目标分解为三个凸子问题：Tikhonov正则化反问题、最小二乘回归与分类器学习。
通过依次优化三个块（隐藏单元权重、输出权重与网络参数）来应用块坐标下降（BCD）算法。
借鉴增广拉格朗日法思想，确保每个子优化步骤的数值稳定性和收敛性。
采用步长递减的线搜索策略以保证收敛性，理论分析表明其收敛速率为一阶R线性。

实验结果

研究问题

RQ1基于Tikhonov正则化的ReLU型DNN的多凸重构是否能实现训练过程的全局收敛？
RQ2应用于该重构问题的块坐标下降算法是否能全局收敛至驻点，并具备可证明的收敛速率？
RQ3该方法是否能在测试精度与泛化性能上优于标准SGD训练方法？
RQ4所提方法如何缓解深层网络中的梯度消失问题？
RQ5在所提重构形式下，BCD算法的收敛速率是否为一阶R线性？

主要发现

所提BCD算法经近似点法分析证明，能以一阶R线性收敛速率全局收敛至驻点。
该方法数值稳定，由于每个子问题中建模了长程依赖关系，因此不受梯度消失问题影响。
在MNIST数据集上，使用BCD算法训练的DNN在测试集上误差率始终低于Caffe工具箱中所有SGD变体训练的相同架构网络。
Tikhonov正则化矩阵能有效编码网络结构与参数化信息，实现训练目标的结构化凸分解。
该算法适用于训练密集型与稀疏型DNN，展现出对网络拓扑的广泛适用性。
收敛性分析成立的前提是每个子问题具有唯一解，且步长序列满足特定衰减条件（如θt = 1/t^p，其中p > 1）。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。