Skip to main content
QUICK REVIEW

[论文解读] Banach Space Representer Theorems for Neural Networks and Ridge Splines

Rahul Parhi, Robert D. Nowak|arXiv (Cornell University)|Jun 10, 2020
Neural Networks and Applications参考文献 64被引用 37
一句话总结

论文在 Radon 域中开发了带有总变差正则化的变分框架并证明了一个 representer 定理:有限宽度、单隐藏层神经网络解决连续域逆问题,提出多项式脊样条并将正则化项与常见的 NN 实践联系起来。

ABSTRACT

We develop a variational framework to understand the properties of the functions learned by neural networks fit to data. We propose and study a family of continuous-domain linear inverse problems with total variation-like regularization in the Radon domain subject to data fitting constraints. We derive a representer theorem showing that finite-width, single-hidden layer neural networks are solutions to these inverse problems. We draw on many techniques from variational spline theory and so we propose the notion of polynomial ridge splines, which correspond to single-hidden layer neural networks with truncated power functions as the activation function. The representer theorem is reminiscent of the classical reproducing kernel Hilbert space representer theorem, but we show that the neural network problem is posed over a non-Hilbertian Banach space. While the learning problems are posed in the continuous-domain, similar to kernel methods, the problems can be recast as finite-dimensional neural network training problems. These neural network training problems have regularizers which are related to the well-known weight decay and path-norm regularizers. Thus, our result gives insight into functional characteristics of trained neural networks and also into the design neural network regularizers. We also show that these regularizers promote neural network solutions with desirable generalization properties.

研究动机与目标

  • 通过连续域逆问题拟合数据的神经网络所学习函数的性质。
  • 在 Radon 域发展一族类似 TV 的半范数,使之产生神经网络类型的解。
  • 作为相应的变分解,引入脊样条并将其与一变量样条联系起来。
  • 展示这些结果如何解释神经网络中的正则化效应与泛化性质。

提出的方法

  • 在 Radon 域中形式化具有 TV 类正则化的连续域线性逆问题与数据拟合项。
  • 基于 Radon 变换、斜坡滤波器和 Radon 域中的导数,定义一族 m 阶半范数 ||·||_(m)。
  • 证明一个 representer 定理:稀疏解是单隐藏层神经网络加一个低阶多项式(Equation 10)。
  • 展示该问题可重写为一个有限维神经网络训练问题,其正则化项与权重衰减和路径范数相关(Equations 14–16)。
  • 通过算子 R_m 和 Radon 域中的 Dirac 脉冲定义非均匀多项式脊样条(Definitions 4–5)。
  • 将 m=2 与 ReLU 网络联系起来并讨论齐次性与跳跃连接(Remarks 2–3)。

实验结果

研究问题

  • RQ1带有 Radon 域 TV 类正则化的连续域逆问题是否能出现稀疏的、神经网络类型的解?
  • RQ2提出的一族 Radon 域半范数如何刻画所学习的函数类并与标准的 NN 正则化项相关?
  • RQ3Radon 域中的脊样条与具有不同激活函数的神经网络之间的联系是什么?
  • RQ4结果是否扩展到有限宽度网络并通过半范数界提供对泛化的见解?

主要发现

  • 存在一个稀疏极小化解,其形式为单隐藏层神经网络加一个多项式(K ≤ N − dim(N_m))。
  • 半范数 ||·||_(m) 在 Radon 域中是 TV 类的,且当 m=2 时,representer 简化为 ReLU 网络。
  • 有限维神经网络训练问题(通过 Equations 14–16)对应类似于权重衰减和路径范数的正则化项,将连续与离散表述联系起来。
  • 在较小半范数下训练的神经网络通过对 Rademacher 复杂度的界限表现出泛化性质(在二元分类设定)。
  • 非均匀多项式脊样条提供了一个多变量的一般化,在 Radon 域框架中捕捉到神经网络结构。
  • 该框架给出基于 Banach 空间的 representer 定理,突出涉及的函数空间的非希尔伯特拓扑。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。