Skip to main content
QUICK REVIEW

[论文解读] A Function Space View of Bounded Norm Infinite Width ReLU Nets: The Multivariate Case

Greg Ongie, Rebecca Willett|arXiv (Cornell University)|Oct 3, 2019
Neural Networks and Applications参考文献 27被引用 46
一句话总结

本文通过一个显式的 R-范数,将无限宽度两层 ReLU 网络在权重幅度有界的条件下实现多元函数的表示成本(范数)与 Radon 变换及高阶拉普拉斯算子相关联。

ABSTRACT

A key element of understanding the efficacy of overparameterized neural networks is characterizing how they represent functions as the number of weights in the network approaches infinity. In this paper, we characterize the norm required to realize a function $f:\\mathbb{R}^d\ ightarrow\\mathbb{R}$ as a single hidden-layer ReLU network with an unbounded number of units (infinite width), but where the Euclidean norm of the weights is bounded, including precisely characterizing which functions can be realized with finite norm. This was settled for univariate univariate functions in Savarese et al. (2019), where it was shown that the required norm is determined by the L1-norm of the second derivative of the function. We extend the characterization to multivariate functions (i.e., networks with d input units), relating the required norm to the L1-norm of the Radon transform of a (d+1)/2-power Laplacian of the function. This characterization allows us to show that all functions in Sobolev spaces $W^{s,1}(\\mathbb{R})$, $s\\geq d+1$, can be represented with bounded norm, to calculate the required norm for several specific functions, and to obtain a depth separation result. These results have important implications for understanding generalization performance and the distinction between neural networks and more traditional kernel learning.

研究动机与目标

  • 激发在网络宽度无限大但权重范数有界时对函数表示的理解。
  • 刻画由无限宽 ReLU 网络实现的多元函数的表示成本。
  • 将该成本与 Radon 变换及高阶拉普拉斯算子联系起来。
  • 给出哪些 Sobolev 空间会产生有限成本并提供具体示例。
  • 在范数意义上展示 ReLU 网络的深度分离。

提出的方法

  • 通过在精确有限宽度网络表示下对权重范数的最小化来定义表示成本 R(f),再推广到无限宽度。
  • 引入极限成本 oldR(f) 并证明其等价于对 ReLU 分量的基于测度的积分。
  • 使用通过对偶形式、结合 Radon 变换和 (d+1)/2-阶拉普拉斯算子来定义的 R-范数,以刻画有界性。
  • 通过对偶 Radon 变换和反演公式将 f 与其 Radon 变换联系起来以推导出显式的成本表达。
  • 采用分解为绝对值单元与线性部分的方式来简化分析并获得 R1(f) 的结果。
  • 给出 R-范数的界界限及性质,包括尺度性、不变量性以及无穷远处梯度的作用。

实验结果

研究问题

  • RQ1通过无限宽度的两层 ReLU 网络、且权重范数有界来实现多元函数 f 时,所需的精确表示成本(范数)是多少?
  • RQ2如何利用 Radon 变换技术和高阶拉普拉斯算子来表达和计算这一成本?
  • RQ3哪些函数空间(例如 Sobolev 空间)可保证多元函数的有限表示成本?
  • RQ4深度(更多层)如何影响基于范数的表示成本,即在范数意义上是否存在深度分离?
  • RQ5R-范数的关键性质及其与核方法和RKHS范数的关系是什么?

主要发现

  • 在 W^{d+1,1}(R^d) 中的所有充分光滑函数都具有有限的表示成本。
  • 该成本通过 R-范数与 f 的 (d+1)/2 次幂拉普拉斯算子的 Radon 变换的 L1 范数相关。
  • 半径有限的径向块在有限支撑下具有有限表示成本,而对于半径为 ε 的尖锐块,成本随 1/ε 增长。
  • 在维度 d>1 时,具有有限支撑的一般分段线性函数可能具有无限表示成本。
  • 存在深度分离:一个二维函数可以用有界范数的深度为3的 ReLU 网络表示,但任意深度为2且有界范数的网络都不能表示。
  • R-范数等于该函数的表示成本(overline{R}_1(f) = ||f||_R),并且 overline{R}(f) 的有限性与 ||f||_R 的有限性相关。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。