[论文解读] Understanding Deep Neural Networks with Rectified Linear Units
本文分析 ReLU DNN,证明其与分段线性函数的严格对应性,给出1隐藏层网络的多项式时间全局优化器,并通过 zonotopes 建立深度/规模下界及仿射片数的指数增长。
In this paper we investigate the family of functions representable by deep neural networks (DNN) with rectified linear units (ReLU). We give an algorithm to train a ReLU DNN with one hidden layer to *global optimality* with runtime polynomial in the data size albeit exponential in the input dimension. Further, we improve on the known lower bounds on size (from exponential to super exponential) for approximating a ReLU deep net function by a shallower ReLU net. Our gap theorems hold for smoothly parametrized families of "hard" functions, contrary to countable, discrete families known in the literature. An example consequence of our gap theorems is the following: for every natural number $k$ there exists a function representable by a ReLU DNN with $k^2$ hidden layers and total size $k^3$, such that any ReLU DNN with at most $k$ hidden layers will require at least $\frac{1}{2}k^{k+1}-1$ total nodes. Finally, for the family of $\mathbb{R}^n o \mathbb{R}$ DNNs with ReLU activations, we show a new lowerbound on the number of affine pieces, which is larger than previous constructions in certain regimes of the network architecture and most distinctively our lowerbound is demonstrated by an explicit construction of a *smoothly parameterized* family of functions attaining this scaling. Our construction utilizes the theory of zonotopes from polyhedral theory.
研究动机与目标
- 表征 ReLU DNNs 所表示的函数类及其与分段线性函数的关系。
- 理解深度和宽度如何影响表达能力与表示能力。
- 建立下界,表明对于某些函数,深度带来指数级/超指数级的收益。
- 提供实现或界定 ReLU DNN 中仿射片数量的构造。
- 将 ReLU DNN 的表达能力与多面体几何(zonotopes)及已知近似结果联系起来。
提出的方法
- 证明每个 ReLU DNN 都计算一个连续的分段线性函数,并且每个这样的函数都可以用深度至多为 ceil(log2(n+1))+1 的 ReLU DNN 表示。
- 给出在 DNN 中表示最大运算和组合凸片的具有建设性的证明。
- 推导深度-规模的权衡,并构造平滑参数化的困难函数族以区分浅层与深层网络。
- 使用 zonotopes 及其支撑函数来界定仿射片的数量,并构建具有可证明复杂性差距的难函数族。
- 给出明确的定理(例如 Theorem 2.1、Theorem 2.3、Theorem 3.1、Corollaries 3.3–3.4)及辅助引理。
实验结果
研究问题
- RQ1ReLU DNNs 能表示哪类函数?这与分段线性函数有何关系?
- RQ2深度和宽度如何影响表达能力以及表示某些函数所需的尺寸?
- RQ3我们能否构造平滑参数化的困难函数族,以展示 ReLU 网络的深度/尺寸差距?
- RQ4ReLU DNNs 的仿射片数量的下界是什么?以及 zonotopes 如何对这些下界作出贡献?
主要发现
- ReLU DNNs 精确地计算连续的分段线性函数,且每个这样的函数都可以用深度至多为 ceil(log2(n+1))+1 的 ReLU DNN 表示(定理 2.1)。
- 当 n=1 时,具有 p 个分段的分段线性函数可以由一个含最多 p 个节点的两层 DNN 表示,且任意此类 DNN 至少需要 p-1 个节点(定理 2.2)。
- 对 R^n 上的任意 Lq (1≤q≤∞) 函数,都可以被深度至多为 ceil(log2(n+1))+1 的 ReLU DNN 任意好近似(定理 2.3)。
- 存在一组平滑参数化的 R→R 难函数族,可以被一个宽度为 w、层数为 (k+1) 的 ReLU DNN 表示,但任何更浅的网络(不超过 k 层)必须具有大致 (1/2) k' w^{k/k'} - 1 的规模(定理 3.1)。
- 存在下界表明某些 R^n→R 的 ReLU DNN 的仿射片数量随输入维度呈指数增长(定理 3.2 及相关推论)。
- 结果提供了超指数级的深度-尺寸差距,并通过使用平滑参数化和基于 zonotope 的构造来加强先前的深度分离工作(推论 3.3–3.4;定理 3.5)。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。