Skip to main content
QUICK REVIEW

[论文解读] When is a Convolutional Filter Easy To Learn?

Simon S. Du, Jason D. Lee|arXiv (Cornell University)|Sep 18, 2017
Neural Networks and Applications参考文献 34被引用 43
一句话总结

本文首次为在非高斯输入分布下使用随机梯度下降(SGD)学习卷积滤波器(ReLU激活)提供了理论恢复保证。当输入块高度相关且分布平滑时,结果表明:随机初始化的梯度下降可实现多项式时间收敛,从而解释了两阶段学习率策略的有效性,并将以往仅限于高斯分布的结果推广至真实世界数据。

ABSTRACT

We analyze the convergence of (stochastic) gradient descent algorithm for learning a convolutional filter with Rectified Linear Unit (ReLU) activation function. Our analysis does not rely on any specific form of the input distribution and our proofs only use the definition of ReLU, in contrast with previous works that are restricted to standard Gaussian input. We show that (stochastic) gradient descent with random initialization can learn the convolutional filter in polynomial time and the convergence rate depends on the smoothness of the input distribution and the closeness of patches. To the best of our knowledge, this is the first recovery guarantee of gradient-based algorithms for convolutional filter on non-Gaussian input distributions. Our theory also justifies the two-stage learning rate strategy in deep neural networks. While our focus is theoretical, we also present experiments that illustrate our theoretical findings.

研究动机与目标

  • 解决在非高斯输入分布下,SGD学习卷积滤波器时缺乏理论保证的问题。
  • 识别梯度下降能够高效恢复具有ReLU激活的卷积滤波器的条件。
  • 通过引入与分布无关的收敛性分析,将先前仅限于高斯输入的结果推广至更一般情况。
  • 正式建立输入分布平滑性与收敛速度之间的联系,并为自适应学习率策略提供理论依据。

提出的方法

  • 分析一个带有ReLU激活和平均池化的单层卷积网络,重点关注块级别的表征。
  • 使用随机初始化的随机梯度下降来优化滤波器权重向量 w。
  • 引入块之间的相关性条件:θ(Zi, Zj) ≤ ρ(ρ 较小),以确保块之间的高度相似性。
  • 通过激活区域中二阶矩矩阵的最大与最小特征值之比来定义输入分布的平滑性。
  • 采用集中与谱分析方法,对类似Hessian矩阵的最小特征值进行有界,以确保收敛性。
  • 利用体积论证和Gautschi不等式,推导随机初始化失败概率的上界。

实验结果

研究问题

  • RQ1在何种输入分布条件下,SGD能够成功学习具有ReLU激活的卷积滤波器?
  • RQ2是否可以为非高斯输入分布建立收敛保证,而不仅限于标准的高斯假设?
  • RQ3输入分布的平滑性如何影响梯度下降的收敛速度?
  • RQ4为何两阶段学习率策略在实践中有效?能否从理论上加以解释?
  • RQ5块相关性在卷积滤波器可学习性中起到何种作用?

主要发现

  • 当输入块高度相关(即 θ(Zi, Zj) ≤ ρ,ρ 较小时),SGD 与随机初始化可在多项式时间内收敛至真实滤波器。
  • 输入分布越平滑(即激活区域中二阶矩矩阵的最大与最小特征值之比越小),收敛速度越快。
  • 高斯输入是特殊情况,可获得最紧的收敛界,证实其在优化中的有利作用。
  • 理论框架解释了实践中观察到的两阶段学习率策略的合理性,即在初始进展后降低学习率。
  • 实验结果表明,学习到的滤波器与真实滤波器之间的线性插值可保持低损失,表明具有良好的泛化能力和收敛性。
  • 该分析与分布无关,不依赖于高斯分布的特定性质,因此可直接应用于真实世界数据。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。