Skip to main content
QUICK REVIEW

[论文解读] A Priori Estimates of the Population Risk for Residual Networks

E Weinan, Chao Ma|arXiv (Cornell University)|Mar 6, 2019
Probabilistic and Robust Engineering Design参考文献 25被引用 42
一句话总结

该论文使用一种新的加权路径范数推导正则化深度残差网络的先验泛化界,给出高维场景中的最优速率,并将近似误差和估计误差与训练细节分离。

ABSTRACT

Optimal a priori estimates are derived for the population risk, also known as the generalization error, of a regularized residual network model. An important part of the regularized model is the usage of a new path norm, called the weighted path norm, as the regularization term. The weighted path norm treats the skip connections and the nonlinearities differently so that paths with more nonlinearities are regularized by larger weights. The error estimates are a priori in the sense that the estimates depend only on the target function, not on the parameters obtained in the training process. The estimates are optimal, in a high dimensional setting, in the sense that both the bound for the approximation and estimation errors are comparable to the Monte Carlo error rates. A crucial step in the proof is to establish an optimal bound for the Rademacher complexity of the residual networks. Comparisons are made with existing norm-based generalization error bounds.

研究动机与目标

  • 在高维设置下激发对深度残差网络泛化误差的理解。
  • 引入带有新型加权路径范数的正则化残差网络模型。
  • 建立仅依赖目标函数和网络结构的先验总体风险界。
  • 证明近似误差与估计误差在深度、宽度和数据量下以最优方式尺度化。

提出的方法

  • 给出包含跳跃连接和ReLU激活的网络架构定义(方程2.1)。
  • 将加权路径范数引入作为基于参数的正则化项(定义2.4)。
  • 使用加权路径范数构造带正则项的经验风险最小化问题(方程2.12)。
  • 利用Barron空间理论刻画目标函数并将Barron范数与近似能力相关联(定义2.1–2.3)。
  • 通过结合近似结果(定理2.7)、Rademacher复杂度控制(定理2.10)以及泛化分解(定理2.5)推导出先验界。
  • 将结果扩展到含有亚高斯噪声的嘈杂情形(定理2.6)。

实验结果

研究问题

  • RQ1可以为使用基于范数的正则化的正则化残差网络的总体风险建立哪些先验界?
  • RQ2加权路径范数如何控制估计误差,以及它如何与网络深度和宽度相互作用?
  • RQ3泛化误差是否可以以仅取决于目标函数(Barron范数)和网络结构的方式来界定,而非训练时参数?
  • RQ4噪声对先验估计的影响有多大,截断如何有助于控制?
  • RQ5界是否达到接近蒙特卡罗误差率的近似最优速率?

主要发现

  • 先验界表示总体风险对近似项为O(1/(Lm)),对估计项为O(1/√n),在常数尺度内与蒙特卡罗速率相匹配。
  • 加权路径范数提供一个与深度/宽度无关的后验Rademacher复杂度控制,使得泛化界的深度和宽度无关组成成为可能。
  • 目标函数的Barron范数决定主要近似误差,较小的Barron范数带来更紧的界(通过函数类)。
  • 使用加权路径范数的正则化在经验风险和模型复杂度之间实现最优平衡,在过参化情形下获得鲁棒的最小化结果。
  • 结果扩展到亚高斯噪声,只相对于无噪声情形产生对数惩罚(定理2.6)。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。