QUICK REVIEW

[论文解读] Beyond Backprop: Online Alternating Minimization with Auxiliary Variables

Anna Choromanska, Benjamin Cowen|arXiv (Cornell University)|Jun 24, 2018

Stochastic Gradient Optimization Techniques被引用 33

一句话总结

该论文提出了一种新颖的在线（随机/小批量）交替最小化（AM）方法，用于使用辅助变量训练深度神经网络，避免反向传播的梯度链式法则。该方法首次为随机设置下的AM提供了理论收敛保证，并在MNIST、CIFAR-10和HIGGS数据集上实现了具有竞争力的准确率，运行时间与SGD和Adam相当。

ABSTRACT

Despite significant recent advances in deep neural networks, training them remains a challenge due to the highly non-convex nature of the objective function. State-of-the-art methods rely on error backpropagation, which suffers from several well-known issues, such as vanishing and exploding gradients, inability to handle non-differentiable nonlinearities and to parallelize weight-updates across layers, and biological implausibility. These limitations continue to motivate exploration of alternative training algorithms, including several recently proposed auxiliary-variable methods which break the complex nested objective function into local subproblems. However, those techniques are mainly offline (batch), which limits their applicability to extremely large datasets, as well as to online, continual or reinforcement learning. The main contribution of our work is a novel online (stochastic/mini-batch) alternating minimization (AM) approach for training deep neural networks, together with the first theoretical convergence guarantees for AM in stochastic settings and promising empirical results on a variety of architectures and datasets.

研究动机与目标

解决反向传播的局限性，如梯度消失、不可微非线性激活以及生物上的不现实性。
克服现有辅助变量方法的限制，这些方法大多为离线（批量）设置，不适用于在线或持续学习。
开发一种内存高效的在线随机交替最小化框架，实现分层的、局部的权重更新，无需反向传播。
为随机（小批量）设置下的交替最小化提供首个理论收敛保证。
在多种架构和数据集上展示方法的实证有效性，包括全连接网络和LeNet-5在MNIST与CIFAR-10上的应用。

提出的方法

每层引入辅助变量，将深层网络的嵌套目标函数分解为局部子问题，从而实现对权重和激活值的交替最小化。
提出两种变体：AM-Adam，采用自适应梯度更新权重；AM-mem，利用受在线字典学习（Mairal et al., 2009）启发的代理目标函数。
执行交替优化：首先在固定权重下更新辅助变量（即激活值），然后使用局部信息并行更新所有层的权重。
采用小批量随机更新以支持在线学习，避免全批量计算，提升大规模数据集的可扩展性。
避免使用拉格朗日乘子，将内存使用量降低至与标准SGD相当的水平，同时保持局部更新和生物上合理的优点。
将优化问题公式化，使得权重更新仅依赖于局部信号和当前层的激活值，从而增强计算和生物上的合理性。

实验结果

研究问题

RQ1能否将带有辅助变量的交替最小化方法适配到在线、随机（小批量）设置下，以实现持续且可扩展的深度学习？
RQ2所提出的在线AM方法是否能在随机设置下实现收敛，且能否建立理论保证？
RQ3在线AM方法在不同架构和数据集上与标准反向传播方法（如Adam和SGD）相比性能如何？
RQ4该方法能否在不依赖反向传播的情况下处理不可微非线性激活并避免梯度消失问题？
RQ5与现有反向传播和辅助变量基线方法相比，该方法的计算效率和内存占用如何？

主要发现

所提出的在线AM方法在全连接网络上于MNIST数据集上实现了97.8%的测试准确率，与Adam和SGD相当，尽管完全避免了反向传播。
在CIFAR-10数据集上，AM-Adam变体在每层500个神经元的设置下达到了87.2%的准确率，优于SGD，并在最优超参数下与Adam性能相当。
在HIGGS数据集上，AM-Adam在相同学习率和网络架构下与Adam的准确率70.1%持平，表明其在高维真实世界数据上的鲁棒性。
运行时间测量显示，AM-Adam与Adam和SGD几乎相当——例如，在LeNet-5/MNIST上处理450个小批量仅需443秒，表明其计算上的可行性。
该方法在随机设置下实现了收敛，并提供了正式的理论保证，这是首次在在线深度学习中为交替最小化提供此类结果。
AM-mem和AM-Adam变体在多种权重初始化和数据集上表现出一致性能，且相比基线方法对超参数的敏感性极低。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。