QUICK REVIEW

[论文解读] On the Optimization of Deep Networks: Implicit Acceleration by Overparameterization

Sanjeev Arora, Nadav Cohen|arXiv (Cornell University)|Feb 19, 2018

Stochastic Gradient Optimization Techniques参考文献 34被引用 135

一句话总结

该论文表明，在过参数化线性网络中增加深度可以通过在梯度下降上引入预条件化效应来隐式加速优化，并且这种加速不能被任何固定正则化所再现。

ABSTRACT

Conventional wisdom in deep learning states that increasing depth improves expressiveness but complicates optimization. This paper suggests that, sometimes, increasing depth can speed up optimization. The effect of depth on optimization is decoupled from expressiveness by focusing on settings where additional layers amount to overparameterization - linear neural networks, a well-studied model. Theoretical analysis, as well as experiments, show that here depth acts as a preconditioner which may accelerate convergence. Even on simple convex problems such as linear regression with $\ell_p$ loss, $p>2$, gradient descent can benefit from transitioning to a non-convex overparameterized objective, more than it would from some common acceleration schemes. We also prove that it is mathematically impossible to obtain the acceleration effect of overparametrization via gradients of any regularizer.

研究动机与目标

研究深度和过参数化如何影响深度网络中的优化。
通过分析线性网络，其中深度将参数表示为矩阵乘积来将优化与表达能力分离。
建立一个连续时间梯度动力学框架来表征端到端的优化。
证明加速不能由任何固定正则化器获得。

提出的方法

通过连续时间微分方程分析深度线性网络的梯度下降动力学。
将端到端权重 W_e 与单层目标 L^1 相关联并推导出一个深度相关的预条件化。
推导出 W_e 的显式更新规则，类似自适应学习率和动量（定理 1，公式 8-10）。
给出一个特殊的单输出情况，得到带自适应缩放和投影的可处理形式（Claim 2）。
证明加速效应不能通过任何固定正则化器的梯度获得（Theorem 2）。
以经验评估支持理论发现（Section 8）。

实验结果

研究问题

RQ1通过过参数化增加深度是否会加速线性网络中的优化？
RQ2与浅层相比，优化深度线性网络时梯度下降动力学如何变化？
RQ3观察到的加速是否可以被标准正则化方法复制？
RQ4深度网络的端到端更新的性质以及它对深度 N 的依赖是什么？

主要发现

通过深度进行的过参数化会对梯度下降进行预条件化，促使沿着优化已探索的方向移动。
端到端权重动态 W_e 遵循一个深度相关的更新，类似于对单层目标 L^1(W_e) 的预条件梯度步。
预条件化取决于 W_e 的奇异值，并且随着深度 N 增大，在某些方向上增加了有效步长。
在单输出情形下，更新包含一个乘法的范数基学习率因子和一个梯度投影项，使自适应加速成为可能。
加速效应不能由任何固定正则化器复制；它不能表示为正则化目标的梯度（Theorem 2）。
实证结果表明在某些设置下，过参数化可以优于标准加速方案（例如 AdaGrad、AdaDelta）。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。