[论文解读] Training Neural Networks with Stochastic Hessian-Free Optimization
本文提出随机Hessian自由(Stochastic Hessian-Free, SHF)优化方法,作为Hessian自由(Hessian-Free, HF)训练的mini-batch变体,利用与数据集规模无关的随机梯度和曲率-向量乘积。SHF结合了SGD的泛化优势与二阶曲率信息,在图像分类和深度自编码器任务中实现了具有竞争力的性能,且无需学习率调优,同时通过集成dropout防止过拟合。
Hessian-free (HF) optimization has been successfully used for training deep autoencoders and recurrent networks. HF uses the conjugate gradient algorithm to construct update directions through curvature-vector products that can be computed on the same order of time as gradients. In this paper we exploit this property and study stochastic HF with gradient and curvature mini-batches independent of the dataset size. We modify Martens' HF for these settings and integrate dropout, a method for preventing co-adaptation of feature detectors, to guard against overfitting. Stochastic Hessian-free optimization gives an intermediary between SGD and HF that achieves competitive performance on both classification and deep autoencoder experiments.
研究动机与目标
- 开发一种可扩展的、基于随机梯度和曲率mini-batch的Hessian自由(HF)优化方法,其计算成本与数据集规模无关。
- 将dropout集成到HF优化中,以防止特征检测器之间的共适应并减少过拟合。
- 结合SGD的泛化优势与HF的曲率感知更新,通过调整mini-batch大小和共轭梯度(CG)迭代次数实现自适应行为。
- 在分类和深度自编码器任务上评估SHF,与SGD、HF、动量法及Nesterov加速梯度方法进行比较。
- 证明SHF可消除手动调整学习率的需求,同时在多种架构和任务中保持具有竞争力的性能。
提出的方法
- 将Martens的Hessian自由(HF)框架改进为使用在mini-batch上计算的随机梯度和曲率-向量乘积,使计算成本与数据集规模解耦。
- 使用共轭梯度(CG)迭代计算通过Hessian-向量乘积得到的更新方向,避免显式计算Hessian矩阵。
- 在训练过程中集成dropout作为正则化项,以防止特征检测器共适应并提升泛化能力。
- 通过调整梯度和曲率的mini-batch大小来控制SHF的行为,实现从SGD类到HF类动力学的插值。
- 采用动态CG衰减参数,当训练发散时自动关闭衰减,从而在高曲率区域实现精细调优,类似于动量退火机制。
- 采用基于方差的批量大小控制策略来估计梯度和曲率,受先前工作启发,尽管本研究中批量大小为固定值。
实验结果
研究问题
- RQ1能否设计一种基于mini-batch梯度和曲率-向量乘积的Hessian自由优化随机变体,实现对大规模数据集的高效扩展?
- RQ2在分类和自编码器任务中,将dropout集成到Hessian自由优化中是否能提升泛化能力并减少过拟合?
- RQ3SHF能否在不依赖手动学习率调优的情况下,在多种神经网络架构中实现与SGD和HF相当的性能?
- RQ4mini-batch大小与共轭梯度迭代次数之间的相互作用如何影响优化动力学和收敛性?
- RQ5与固定动量调度相比,动态CG衰减机制在高曲率区域中在多大程度上提升了收敛性能?
主要发现
- 在CURVES数据集上,SHF的训练误差为0.089,优于HF(0.110),并达到最佳性能方法的水平,表明其在难以优化的自编码器任务中具有改进的优化能力。
- 在MNIST数据集上,SHF的训练误差为0.877,与HF(0.780)和动量法相当,表明其在标准自编码器基准测试中表现强劲。
- 在Reuters文本分类数据集上,使用dropout的SHF实现了具有竞争力的测试准确率,而未使用dropout的SHF则在训练数据上过拟合,证实了dropout对泛化能力的重要性。
- SHF消除了手动调整学习率的需求,在所有实验中均保持稳定性能,而一阶方法则需要仔细的超参数调度。
- 使用较小批量和仅5次CG迭代的实验结果更差(如CURVES上误差达0.19),表明噪声较大的更新可能在高曲率区域阻碍优化进展。
- 动态CG衰减机制(在发散后禁用衰减)显著降低了训练误差,尤其在CURVES数据集上效果明显,且在复杂损失曲面中表现出色。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。