Skip to main content
QUICK REVIEW

[论文解读] Learning ReLUs via Gradient Descent

Mahdi Soltanolkotabi|arXiv (Cornell University)|May 10, 2017
Neural Networks and Applications参考文献 14被引用 38
一句话总结

本文研究了在高维情形下通过投影梯度下降学习修正线性单元(ReLUs)的问题,此时样本数量少于权重向量的维度。结果表明,当从零初始化时,投影梯度下降能以最优样本复杂度(常数因子内)线性收敛至真实的植入权重向量,为浅层神经网络乃至更深层网络的训练动态提供了洞见。

ABSTRACT

In this paper we study the problem of learning Rectified Linear Units (ReLUs) which are functions of the form $max(0, )$ with $w$ denoting the weight vector. We study this problem in the high-dimensional regime where the number of observations are fewer than the dimension of the weight vector. We assume that the weight vector belongs to some closed set (convex or nonconvex) which captures known side-information about its structure. We focus on the realizable model where the inputs are chosen i.i.d.~from a Gaussian distribution and the labels are generated according to a planted weight vector. We show that projected gradient descent, when initialization at 0, converges at a linear rate to the planted model with a number of samples that is optimal up to numerical constants. Our results on the dynamics of convergence of these very shallow neural nets may provide some insights towards understanding the dynamics of deeper architectures.

研究动机与目标

  • 研究样本数量少于权重向量维度的高维设置下学习ReLU函数的问题。
  • 通过闭集约束(凸或非凸)引入关于权重向量的结构先验信息。
  • 分析在高斯输入和由植入权重向量生成的标签下,从零初始化时投影梯度下降在可实现模型中的收敛行为。
  • 为浅层神经网络的训练动态提供理论洞见,或可为理解更深架构提供参考。

提出的方法

  • 作者采用从原点初始化的投影梯度下降方法来学习ReLU函数。
  • 假设真实权重向量位于一个闭集中,该集合编码了诸如稀疏性或低秩结构等先验结构知识。
  • 输入数据为独立同分布的高斯分布,标签通过植入ReLU模型生成:y = max(0, w^T x)。
  • 在可实现模型下分析收敛性,即真实函数属于假设类。
  • 通过利用在植入模型下损失曲面的几何与优化性质,建立线性收敛速率。
  • 该方法依赖于在每次迭代中对约束集进行投影,以强制实施结构先验。

实验结果

研究问题

  • RQ1在高维设置下,采用零初始化的投影梯度下降能否实现学习ReLU函数的线性收敛?
  • RQ2在结构约束下,成功学习ReLU函数所需的最优样本复杂度是多少?
  • RQ3约束集的几何结构(凸或非凸)如何影响梯度下降的收敛速率?
  • RQ4学习单个ReLU的动态过程是否能为训练深层神经网络提供洞见?
  • RQ5从零初始化在算法收敛行为中起到何种作用?

主要发现

  • 在高维情形下,采用零初始化的投影梯度下降能线性收敛至真实的植入权重向量。
  • 即使样本数量少于权重向量的维度,实现收敛所需的样本数量在常数因子内达到最优。
  • 在对权重向量施加适当的结构假设时,收敛速率与环境维度无关。
  • 该分析对凸与非凸约束集均成立,表明对结构先验的选择具有鲁棒性。
  • 结果表明,浅层模型中的简单优化动态可能与深层网络中的行为相似,为经验观察提供了理论依据。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。