Skip to main content
QUICK REVIEW

[论文解读] Why Deep Neural Networks for Function Approximation?

Shiyu Liang, R. Srikant|arXiv (Cornell University)|Oct 13, 2016
Neural Networks and Applications被引用 152
一句话总结

这篇论文表明,对于一大类分段光滑函数,深度网络在达到给定逼近精度时所需的神经元数量比浅层网络显著减少指数级。

ABSTRACT

Recently there has been much interest in understanding why deep neural networks are preferred to shallow networks. We show that, for a large class of piecewise smooth functions, the number of neurons needed by a shallow network to approximate a function is exponentially larger than the corresponding number of neurons needed by a deep network for a given degree of function approximation. First, we consider univariate functions on a bounded interval and require a neural network to achieve an approximation error of $\varepsilon$ uniformly over the interval. We show that shallow networks (i.e., networks whose depth does not depend on $\varepsilon$) require $Ω( ext{poly}(1/\varepsilon))$ neurons while deep networks (i.e., networks whose depth grows with $1/\varepsilon$) require $\mathcal{O}( ext{polylog}(1/\varepsilon))$ neurons. We then extend these results to certain classes of important multivariate functions. Our results are derived for neural networks which use a combination of rectifier linear units (ReLUs) and binary step units, two of the most popular type of activation functions. Our analysis builds on a simple observation: the multiplication of two bits can be represented by a ReLU.

研究动机与目标

  • 阐明深度在神经网络进行函数逼近时为何有帮助。
  • 建立跨函数类的ε-逼近所需的网络规模的上界和下界。
  • 在单变量和多变量函数中,使用 ReLU 与二进制阶跃激活,比较深度与宽度的关系。

提出的方法

  • 给出通过神经网络对函数族在无穷大范数(均匀)上的逼近界限。
  • 利用通过 ReLUs 和 BSUs 实现二进制展开与多项式求值的构造。
  • 推导上界:深度网络具有 O(log(1/epsilon)) 层和 polylog(1/epsilon) 个神经元;浅层网络需要 poly(1/epsilon) 个神经元。
  • 证明强凸函数的下界,表明 N >= log(1/epsilon) 是必要的。

实验结果

研究问题

  • RQ1达到给定函数的 ε-逼近所需的深度和规模是多少?
  • RQ2固定深度下,达到 ε-逼近所需的最小网络规模是多少?
  • RQ3在 ReLU 与二进制阶跃激活下,单变量与多变量函数的深度与规模如何权衡?
  • RQ4所推导的界在包括分段光滑与强凸函数在内的广泛函数类中是否是界紧的?
  • RQ5结果如何扩展到函数的组合、乘法和线性组合?

主要发现

  • 浅层网络在有界区间上实现对分段光滑的一元函数的 ε-逼近时需要 Omega(poly(1/epsilon)) 个神经元。
  • 深度为 Theta(log(1/epsilon)) 的网络为同样的 ε-逼近需要 O(polylog(1/epsilon)) 个神经元。
  • 对于可微且强凸的函数,任何多层网络为实现 ε-逼近都需要 Omega(log(1/epsilon)) 个神经元。
  • 推论表明 polylog(1/epsilon) 的界扩展到平滑的一元或多变量函数的加法、乘法和复合。
  • 下界表明在所述假设下,基于深度的优势是紧致的/达到界限的。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。