Skip to main content
QUICK REVIEW

[论文解读] Deep Convolutional Networks as shallow Gaussian Processes

Adrià Garriga-Alonso, Carl Edward Rasmussen|arXiv (Cornell University)|Aug 16, 2018
Gaussian Processes and Bayesian Inference参考文献 25被引用 106
一句话总结

该论文表明,在具有无穷滤波器的 CNN(包括 ResNets)等价于通过推导得到、高效的核的高斯过程;该 ConvNet GP 在无需对参数化的 CNN 进行训练的情况下实现了与 MNIST 竞争的结果。

ABSTRACT

We show that the output of a (residual) convolutional neural network (CNN) with an appropriate prior over the weights and biases is a Gaussian process (GP) in the limit of infinitely many convolutional filters, extending similar results for dense networks. For a CNN, the equivalent kernel can be computed exactly and, unlike "deep kernels", has very few parameters: only the hyperparameters of the original CNN. Further, we show that this kernel has two properties that allow it to be computed efficiently; the cost of evaluating the kernel for a pair of images is similar to a single forward pass through the original CNN with only one filter per layer. The kernel equivalent to a 32-layer ResNet obtains 0.84% classification error on MNIST, a new record for GPs with a comparable number of parameters.

研究动机与目标

  • 在安全关键环境中为 CNNs 引入不确定性估计和鲁棒贝叶斯推断的动机。
  • 证明深层 CNNs 和带无限滤波器的 ResNets 收敛到高斯过程。
  • 推导一个高效的 ConvNet GP 核,利用对角协方差和补丁级结构。
  • 在 MNIST 上展示经验性能,在 GP 基础上达到有竞争力或最先进的结果。

提出的方法

  • 为每层定义一个具有高斯权重和偏置的二维卷积网络先验。
  • 通过在层数趋于无穷时应用多变量中心极限定理来证明 GP 行为。
  • 通过仅通过网络传播对角协方差(补丁级方差)来推导一个计算高效的核。
  • 对常见非线性函数提供闭式协方差更新(如 ReLU、erf),以计算核。
  • 通过显示跳跃连接下 GP 行为保持,将核扩展到残差 CNN。
  • 在 MNIST 上进行实验,将 ConvNet GP、Residual CNN GP 与 ResNet GP 与其他 GP 基线进行比较。

实验结果

研究问题

  • RQ1在无限滤波器极限下,CNN 或 ResNet 架构是否可以被精确表示为高斯过程?
  • RQ2如何计算一个高效的 CNN 基 GP 的核,能够保持平移不变量和结构?
  • RQ3在 MNIST 上相对于先前的 GP 方法,CNN/ResNet GP 核的经验性能如何?
  • RQ4残差连接是否保持 GP 属性并在基于核的图像任务中改进性能?

主要发现

方法#样本数验证误差测试误差
NNGP (Lee et al. 2017)≈ 2501.21%
Convolutional GP (van der Wilk et al. 2017)SGD1.17%
Deep Conv. GP (Kumar et al. 2018)SGD1.34%
ConvNet GP270.71%1.03%
Residual CNN GP270.71%0.93%
ResNet GP0.84%
GP + parametric deep kernel (Bradshaw et al., 2017)SGD0.60%
ResNet (Chen et al., 2018)0.41%
  • 具有适当权重/偏置先验的 CNN 的输出(包括残差变体)在无限滤波器极限下收敛为 GP。
  • 可以推导出一个对 CNN 精确且高效可计算的核,只需要原始 CNN 的超参数。
  • 核评估成本与相应 CNN 的单次前向传播所需成本相似,且每层只有一个滤波器。
  • 32 层的 ResNet GP 在 MNIST 上实现了 0.84% 的测试误差,为非参数 GP 方法设定了新记录,且参数量相当。
  • 在所报告的设置下,基于核的 CNN 超越了先前的非参数 GP 方法在 MNIST 上的表现。
  • Residual CNN GP 和 ResNet GP 相对于 NNGP 与其他卷积 GP 基线显示出较强的性能。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。