Skip to main content
QUICK REVIEW

[论文解读] Why Are Convolutional Nets More Sample-Efficient than Fully-Connected Nets?

Zhiyuan Li, Yi Zhang|arXiv (Cornell University)|Oct 16, 2020
Machine Learning and Algorithms参考文献 14被引用 22
一句话总结

该论文为卷积神经网络(ConvNets)在图像任务上泛化性能优于全连接(FC)网络提供了严格的理论解释。它构建了一个自然的数据分布,其中使用标准基于梯度的方法训练的FC网络需要 Ω(d²) 个样本才能泛化,而ConvNets则仅需 O(1) 个样本即可实现泛化,原因在于SGD等训练算法的正交等变性。其核心贡献在于揭示了由归纳偏置与优化动力学相互作用所导致的可证明的样本复杂度差距。

ABSTRACT

Convolutional neural networks often dominate fully-connected counterparts in generalization performance, especially on image classification tasks. This is often explained in terms of 'better inductive bias'. However, this has not been made mathematically rigorous, and the hurdle is that the fully connected net can always simulate the convolutional net (for a fixed task). Thus the training algorithm plays a role. The current work describes a natural task on which a provable sample complexity gap can be shown, for standard training algorithms. We construct a single natural distribution on $\mathbb{R}^d imes\{\pm 1\}$ on which any orthogonal-invariant algorithm (i.e. fully-connected networks trained with most gradient-based methods from gaussian initialization) requires $Ω(d^2)$ samples to generalize while $O(1)$ samples suffice for convolutional architectures. Furthermore, we demonstrate a single target function, learning which on all possible distributions leads to an $O(1)$ vs $Ω(d^2/\varepsilon)$ gap. The proof relies on the fact that SGD on fully-connected network is orthogonal equivariant. Similar results are achieved for $\ell_2$ regression and adaptive training algorithms, e.g. Adam and AdaGrad, which are only permutation equivariant.

研究动机与目标

  • 从数学上解释全连接网络在泛化性能上为何优于卷积神经网络,尤其是在数据有限的情况下。
  • 识别一个特定学习任务,使得FC网络与ConvNets之间的样本复杂度差距可被严格证明。
  • 表明该差距并非仅源于网络架构的表达能力,而是架构与训练算法动力学相互作用的结果。
  • 通过证明标准训练算法在FC网络上的正交等变性,形式化归纳偏置的作用。
  • 将分析从SGD扩展至自适应算法(如Adam和AdaGrad),并推广至ℓ2回归任务。

提出的方法

  • 在 ℝ^d × {±1} 上构建一个单一自然数据分布,其中标签基于二次型 ∑αixi²,且 αi ∈ ℝ。
  • 证明任何正交不变训练算法(如使用高斯初始化的SGD)在FC网络上必须具有 Ω(d²) 的样本复杂度,这是由于其在正交变换下的不变性。
  • 通过正交群 O(d) 及其切空间(反对称矩阵)上的打包论证,对假设类下可区分函数的数量进行上界估计。
  • 应用正交等变性的概念:若数据通过正交矩阵旋转,网络的预测结果保持不变,从而限制了泛化能力。
  • 通过直接耦合论证,将分析扩展至置换等变算法(如Adam、AdaGrad),表明其样本复杂度下限为 Ω(d)。
  • 证明2层ConvNets在相同任务上可实现 O(1) 或 O(d log(1/ε)) 的样本复杂度,从而证明其具有可证明的泛化优势。

实验结果

研究问题

  • RQ1在标准训练算法下,是否可以为全连接网络与卷积网络之间建立可证明的样本复杂度差距?
  • RQ2ConvNets的泛化优势是否源于架构的归纳偏置,还是源于与优化动力学的相互作用?
  • RQ3SGD及其相关算法的正交等变性是否可用于推导FC网络样本复杂度的下限?
  • RQ4该样本复杂度差距在包括Adam和AdaGrad等自适应方法在内的不同训练算法下是否具有鲁棒性?
  • RQ5该分离现象是否也可在ℓ2回归任务中得到证明,而不仅限于二分类任务?

主要发现

  • 在标签基于 ∑αixi² 的单一自然分布下,任何正交不变算法均需 Ω(d²) 个样本才能实现泛化,而2层ConvNets仅需 O(1) 个样本。
  • 对于使用SGD、Adam、AdaGrad或ℓ2正则化SGD训练的FC网络,其样本复杂度下限为 Ω(d²),原因在于这些算法的正交等变性。
  • 在ℓ2回归中,正交等变算法的样本复杂度为 Ω(d(d+3)/2(1−ε)−1),而ConvNets可实现 O(d) 的样本复杂度。
  • 通过直接耦合论证表明,置换等变算法需 Ω(d) 个样本才能检测1D图像中的局部模式,而ConvNets仅需 O(log(1/δ)) 个样本。
  • 结果表明,ConvNets的归纳偏置不仅是定性的,更是可量化的:它们可在常数数量样本下实现泛化,而FC网络则需与维度平方成比例的样本。
  • 论文未解决的问题是:在单一分布情况下,是否可证明更紧的 Ω(d²/ε) 下限,这为未来工作提供了潜在方向。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。