Skip to main content
QUICK REVIEW

[论文解读] Nearly-tight VC-dimension and pseudodimension bounds for piecewise linear neural networks

Peter L. Bartlett, Nick Harvey|arXiv (Cornell University)|Mar 8, 2017
Stochastic Gradient Optimization Techniques被引用 205
一句话总结

本文证明了深度 ReLU(分段线性)网络在 VC-dimension 和 pseudodimension 上的几乎紧致界,给出依赖于 W(权重)、L(层)和 U(非线性单元)的上界和下界。

ABSTRACT

We prove new upper and lower bounds on the VC-dimension of deep neural networks with the ReLU activation function. These bounds are tight for almost the entire range of parameters. Letting $W$ be the number of weights and $L$ be the number of layers, we prove that the VC-dimension is $O(W L \log(W))$, and provide examples with VC-dimension $Ω( W L \log(W/L) )$. This improves both the previously known upper bounds and lower bounds. In terms of the number $U$ of non-linear units, we prove a tight bound $Θ(W U)$ on the VC-dimension. All of these bounds generalize to arbitrary piecewise linear activation functions, and also hold for the pseudodimensions of these function classes. Combined with previous results, this gives an intriguing range of dependencies of the VC-dimension on depth for networks with different non-linearities: there is no dependence for piecewise-constant, linear dependence for piecewise-linear, and no more than quadratic dependence for general piecewise-polynomial.

研究动机与目标

  • 通过具有分段线性激活的深度网络,动机在于理解泛化能力,借助 VC-dimension 和 pseudodimension。
  • 推导关于 VC-dimension 的近乎紧致的上界和下界,使用 W 和 L 表示。
  • 在不同激活类型下,将深度与非线性性与 VC-dimension 和 pseudodimension 联系起来。
  • 给出尖锐的界以及它们对神经网络深度与宽度之间关系的影响。

提出的方法

  • 引入并分析分段线性网络(包括 ReLU),以研究 VC-dimension 和 pseudodimension。
  • 给出一个新的下界,使用改进的比特提取构造得到 VC-dimension ≥ WL log(W/L)/C(定理 3)。
  • 利用增长函数和半代数集技巧给出分段多项式激活的新的上界(定理 6)。
  • 通过量 1Wbar 来将 VC-dimension 与有效深度和参数分布联系起来(定理 6)。
  • 建立一个关于 W 和 U 的分段多项式激活的上界(定理 8)。
  • 展示深度对深度的影响:分段常数、分段线性以及通用分段多项式激活函数的含义。

实验结果

研究问题

  • RQ1对于具有分段线性激活的深度网络,VC-dimension 和 pseudodimension 的紧界(常数阶内)是多少?
  • RQ2参数数量 W、层数 L 与非线性单元 U 如何影响 VC-dimension 和 pseudodimension?
  • RQ3深度是否在分段常数、分段线性和分段多项式激活下对 VC-dimension 存在不同的影响?
  • RQ4是否可以在包括 ReLU 的激活族中统一并收紧上界?

主要发现

  • 在给定体系结构下,分段线性网络的 VC-dimension 为 O(WL log(W))。
  • 存在的网络的 VC-dimension 至少为 Ω(WL log(W/L)),比之前的 Ω(WL) 和 Ω(W log W) 边界更紧。
  • 就非线性单元数量 U 而言,VC-dimension 是 Θ(WU)。
  • 对于阶数 d、分段数 p 的分段多项式激活,通常情况下 VC-dimension 边界提升为 O(WU),在分段线性情形下为 Ω(WL log(W/L))。
  • 分段常数激活没有深度依赖,而一般分段多项式激活的深度依赖最多是二次方;分段线性情形的界中包含线性深度交互。
  • 一个上界结果(定理 6)显示当 d = 1 时 VC-dimension 的尺度为 O(WL log W),并澄清对有效深度和激活结构的依赖。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。