Skip to main content
QUICK REVIEW

[论文解读] The power of deeper networks for expressing natural functions

David Rolnick, Max Tegmark|arXiv (Cornell University)|May 16, 2017
Neural Networks and Applications参考文献 16被引用 90
一句话总结

该论文证明深度前馈网络比浅层网络在表达自然多项式方面更高效,深度网络的神经元数量随 n 线性增长,而单隐藏层网络则指数增长;增加层数带来近似为 n^{1/k} 的指数级节省。

ABSTRACT

It is well-known that neural networks are universal approximators, but that deeper networks tend in practice to be more powerful than shallower ones. We shed light on this by proving that the total number of neurons $m$ required to approximate natural classes of multivariate polynomials of $n$ variables grows only linearly with $n$ for deep neural networks, but grows exponentially when merely a single hidden layer is allowed. We also provide evidence that when the number of hidden layers is increased from $1$ to $k$, the neuron requirement grows exponentially not with $n$ but with $n^{1/k}$, suggesting that the minimum number of layers required for practical expressibility grows only logarithmically with $n$.

研究动机与目标

  • 激发对深度网络在表示自然函数方面为何优于浅层网络的理论理解。
  • 量化用不同深度的网络近似多变量多项式所需的资源(神经元)。
  • 表明深度显著降低稀疏多项式和自然函数所需的神经元数量。
  • 探究所需最小层数如何随输入维度 n 和多项式稀疏度增长。

提出的方法

  • 将神经网络建模为 N(x)=A_k σ(... σ(A_0 x)),深度为 k。
  • 使用 epsilon-均匀近似与泰勒近似来分析表达能力。
  • 证明对于具有非零泰勒系数直到次数 d 的度-d 多项式,最小神经元数 m^ε_k(p) 在 ε→0 时收敛到有限极限。
  • 推导上界,表明 monomials 的 m^uniform_1(p) = ∏_i (r_i+1),而 m^uniform(p) 的规模为 ∑_i (7⌈log2(r_i)⌉+4)。
  • 将分析扩展到一元与多元多项式,以及具有 c 个单项式的稀疏多项式。
  • 提出基于泰勒的构造性方法来界定恰到深度-k 表示乘积的界,得到 m^uniform_k(p) = O(n^{(k-1)/k} 2^{n^{1/k}}) 当 p = x_1 x_2 ... x_n。

实验结果

研究问题

  • RQ1多变量多项式的近似所需的神经元数量如何随网络深度变化?
  • RQ2对于自然多项式函数,浅层与深层网络在效率上是否存在指数差距?
  • RQ3所需的最小层数如何随输入维度 n 和多项式稀疏度扩展?
  • RQ4在更深的结构中,稀疏多项式是否能用显著更少的神经元表示?
  • RQ5对于深度-k 网络近似输入乘积,是否有具体的构造性界限?

主要发现

  • 对于具有非零泰勒系数直到次数 d 的度-d 多变量多项式,m^ε_1(p) ≤ ∏_i (r_i+1)。
  • 对于相同的多项式,m^uniform(p) ≤ ∑_i (7⌈log2(r_i)⌉+4)。
  • 在统一近似(以及泰勒近似)下,浅层与深层表示在单项式和稀疏多项式之间存在指数差距。
  • 对于一元度-d 多项式,m^Taylor_1(p) ≤ d+1,而 m^uniform(p) 可以保持对 d 的对数级。
  • 对于 p = x1 x2 ... xn,m^uniform_k(p) = O(n^{(k-1)/k} 2^{n^{1/k}}),这表明增加深度可显著降低资源需求。
  • 经验上,界 n^{1/k} 指导需要多少层以保持每层宽度在可行大小(如 2^{10})左右。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。