QUICK REVIEW

[论文解读] Optimization Landscape and Expressivity of Deep CNNs

Quynh Nguyen, Matthias Hein|arXiv (Cornell University)|Oct 30, 2017

Stochastic Gradient Optimization Techniques被引用 55

一句话总结

本论文分析带共享权重与最大池化的深度卷积神经网络的损失景观与表达能力，证明宽层能够产生线性无关的特征，并且在温和条件下几乎所有临界点都是全局最小值且训练误差为零；深度和宽度共同影响优化与表达能力。

ABSTRACT

We analyze the loss landscape and expressiveness of practical deep convolutional neural networks (CNNs) with shared weights and max pooling layers. We show that such CNNs produce linearly independent features at a "wide" layer which has more neurons than the number of training samples. This condition holds e.g. for the VGG network. Furthermore, we provide for such wide CNNs necessary and sufficient conditions for global minima with zero training error. For the case where the wide layer is followed by a fully connected layer we show that almost every critical point of the empirical loss is a global minimum with zero training error. Our analysis suggests that both depth and width are very important in deep learning. While depth brings more representational power and allows the network to learn high level features, width smoothes the optimization landscape of the loss function in the sense that a sufficiently wide network has a well-behaved loss surface with almost no bad local minima.

研究动机与目标

激发对实际深度CNN的损失景观与表达能力的理解。
建立何时宽的CNN层会产生线性无关的特征表示。
推导零训练误差全局极小值的必要充要条件。
展示深度和宽度如何影响CNNs中的优化行为。
给出与实际架构如VGG和Inception相一致的理论结果。

提出的方法

在共享权重下定义包含卷积、最大池化和全连接层的CNN架构。
形式化补丁、过滤器，以及权重映射到全权重矩阵U_k。
给出数据假设（假设3.1）与激活函数假设（假设3.2）。
在宽度 n_k >= N 条件下证明宽层上特征的线性无关性（定理3.4）。
当激活函数为解析函数时，几乎必然线性无关性（定理3.5）。
通过梯度条件分析零训练误差条件与全局极小值（引理4.2、4.3；定理4.4、4.5）。
给出普遍的有限样本表达能力（推论3.6）。
讨论满足宽度条件的架构的实际影响（如VGG、Inception）。

实验结果

研究问题

RQ1在何种架构条件下，宽CNN层会产生线性无关的特征表示？
RQ2宽CNN何时能保证零训练误差和全局极小值？
RQ3深度、宽度和激活选择如何影响CNN中的损失景观与优化动力学？
RQ4在有限样本下，具有共享权重和最大池化的CNN的表达能力是多少？

主要发现

宽层宽度 n_k >= N 的CNN在该层产生线性无关的特征表示（对于常见激活）。
若宽层之后接一个全连接层，在所述条件下几乎所有临界点都会导致零训练误差。
若前k层激活为解析且 n_k >= N，则在宽层出现非线性无关特征的参数集合的Lebesgue测度为零，即几乎必然独立。
对满足架构假设的网络，在参数空间的某个子集中的每个零训练误差点都对应一个全局最小值（且在某些条件下，所有临界点均为全局最小值）。
推论：若最后一个隐藏层足够宽（n_{L-1} >= N），则输出为标量的CNN对任意有限训练集具有普遍的有限表示能力。
在MNIST上的实证证据支持理论结论：宽层的特征矩阵达到满秩，且随着宽度增加，训练误差可以降为零。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。