QUICK REVIEW

[论文解读] Learning Non-overlapping Convolutional Neural Networks with Multiple Kernels

Kai Zhong, Zhao Song|arXiv (Cornell University)|Nov 8, 2017

Tensor decomposition and applications参考文献 4被引用 40

一句话总结

该论文首次为具有多个卷积核的非重叠卷积神经网络（CNNs）建立了多项式样本复杂度和计算复杂度的恢复保证。在高斯输入下，证明了在全局最优解附近平方损失函数的局部强凸性，并表明张量初始化可使梯度下降在输入维度上线性收敛，在精度上对数收敛，适用于如ReLU和Sigmoid等平滑激活函数。

ABSTRACT

In this paper, we consider parameter recovery for non-overlapping convolutional neural networks (CNNs) with multiple kernels. We show that when the inputs follow Gaussian distribution and the sample size is sufficiently large, the squared loss of such CNNs is $\mathit{~locally~strongly~convex}$ in a basin of attraction near the global optima for most popular activation functions, like ReLU, Leaky ReLU, Squared ReLU, Sigmoid and Tanh. The required sample complexity is proportional to the dimension of the input and polynomial in the number of kernels and a condition number of the parameters. We also show that tensor methods are able to initialize the parameters to the local strong convex region. Hence, for most smooth activations, gradient descent following tensor initialization is guaranteed to converge to the global optimal with time that is linear in input dimension, logarithmic in precision and polynomial in other factors. To the best of our knowledge, this is the first work that provides recovery guarantees for CNNs with multiple kernels under polynomial sample and computational complexities.

研究动机与目标

为多卷积核非重叠CNNs提供理论恢复保证，该设置相较于单卷积核或全连接网络理解得更少。
分析在高斯输入分布和常见激活函数下多卷积核CNNs的优化景观。
建立平方损失函数的海森矩阵在全局最优解附近的局部强凸性，从而实现收敛保证。
证明张量方法可将参数初始化在局部强凸性区域之内。
证明对于平滑激活函数，梯度下降具有多项式样本复杂度和计算复杂度的全局收敛性。

提出的方法

证明在激活函数满足如ReLU、Leaky ReLU和Sigmoid等温和条件时，平方损失的总体海森矩阵在真实参数处为正定。
利用矩阵伯恩斯坦不等式，证明在足够样本量下，经验海森矩阵在真实参数邻域内以高概率保持正定。
利用张量分解方法，将参数初始化在局部强凸性成立的吸引域内。
当初始化位于强凸区域时，建立梯度下降到全局最优的局部线性收敛性。
通过二阶光滑性及对平滑与非平滑激活函数的误差界，分析真实参数附近的海森矩阵谱性质。
推导出样本复杂度界，其为输入维度、卷积核数量和参数条件数的多项式。

实验结果

研究问题

RQ1在多卷积核非重叠CNNs中，平方损失的海森矩阵在全局最优解附近满足何种条件时具有局部强凸性？
RQ2基于张量的初始化是否能可靠地将梯度下降置于局部强凸性成立的区域？
RQ3为确保经验海森矩阵在真实参数附近以高概率保持正定，所需的样本复杂度是多少？
RQ4在此设置下，梯度下降的收敛速率如何依赖于输入维度、精度和网络参数？
RQ5对于常见激活函数（如ReLU、Sigmoid）的理论保证在哪些条件下成立？

主要发现

在高斯输入下，对于大多数常见激活函数（包括ReLU、Leaky ReLU、Sigmoid和Tanh），平方损失的总体海森矩阵在真实参数处为正定。
当样本量为输入维度、卷积核数量和条件数的多项式时，经验海森矩阵在真实参数邻域内以高概率保持正定。
当通过张量方法初始化时，梯度下降在输入维度上线性收敛，在精度上对数收敛至全局最优解。
所需的样本复杂度为输入维度、卷积核数量和参数条件数的多项式。
该理论框架首次为多卷积核非重叠CNNs提供了具有多项式样本复杂度和计算复杂度的全局收敛与恢复保证。
该结果适用于满足温和正则性条件的平滑激活函数，并通过额外的技术分析可推广至非平滑激活函数。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。