QUICK REVIEW

[论文解读] Deep Convolutional Networks as shallow Gaussian Processes

Adrià Garriga-Alonso, Carl Edward Rasmussen|arXiv (Cornell University)|Aug 16, 2018

Gaussian Processes and Bayesian Inference参考文献 25被引用 106

一句话总结

该论文表明，在具有无穷滤波器的 CNN（包括 ResNets）等价于通过推导得到、高效的核的高斯过程；该 ConvNet GP 在无需对参数化的 CNN 进行训练的情况下实现了与 MNIST 竞争的结果。

ABSTRACT

We show that the output of a (residual) convolutional neural network (CNN) with an appropriate prior over the weights and biases is a Gaussian process (GP) in the limit of infinitely many convolutional filters, extending similar results for dense networks. For a CNN, the equivalent kernel can be computed exactly and, unlike "deep kernels", has very few parameters: only the hyperparameters of the original CNN. Further, we show that this kernel has two properties that allow it to be computed efficiently; the cost of evaluating the kernel for a pair of images is similar to a single forward pass through the original CNN with only one filter per layer. The kernel equivalent to a 32-layer ResNet obtains 0.84% classification error on MNIST, a new record for GPs with a comparable number of parameters.

研究动机与目标

在安全关键环境中为 CNNs 引入不确定性估计和鲁棒贝叶斯推断的动机。
证明深层 CNNs 和带无限滤波器的 ResNets 收敛到高斯过程。
推导一个高效的 ConvNet GP 核，利用对角协方差和补丁级结构。
在 MNIST 上展示经验性能，在 GP 基础上达到有竞争力或最先进的结果。

提出的方法

为每层定义一个具有高斯权重和偏置的二维卷积网络先验。
通过在层数趋于无穷时应用多变量中心极限定理来证明 GP 行为。
通过仅通过网络传播对角协方差（补丁级方差）来推导一个计算高效的核。
对常见非线性函数提供闭式协方差更新（如 ReLU、erf），以计算核。
通过显示跳跃连接下 GP 行为保持，将核扩展到残差 CNN。
在 MNIST 上进行实验，将 ConvNet GP、Residual CNN GP 与 ResNet GP 与其他 GP 基线进行比较。

实验结果

研究问题

RQ1在无限滤波器极限下，CNN 或 ResNet 架构是否可以被精确表示为高斯过程？
RQ2如何计算一个高效的 CNN 基 GP 的核，能够保持平移不变量和结构？
RQ3在 MNIST 上相对于先前的 GP 方法，CNN/ResNet GP 核的经验性能如何？
RQ4残差连接是否保持 GP 属性并在基于核的图像任务中改进性能？

主要发现

方法	#样本数	验证误差	测试误差
NNGP (Lee et al. 2017)	≈ 250	–	1.21%
Convolutional GP (van der Wilk et al. 2017)	SGD	–	1.17%
Deep Conv. GP (Kumar et al. 2018)	SGD	–	1.34%
ConvNet GP	27	0.71%	1.03%
Residual CNN GP	27	0.71%	0.93%
ResNet GP	–	–	0.84%
GP + parametric deep kernel (Bradshaw et al., 2017)	SGD	–	0.60%
ResNet (Chen et al., 2018)	–	–	0.41%

具有适当权重/偏置先验的 CNN 的输出（包括残差变体）在无限滤波器极限下收敛为 GP。
可以推导出一个对 CNN 精确且高效可计算的核，只需要原始 CNN 的超参数。
核评估成本与相应 CNN 的单次前向传播所需成本相似，且每层只有一个滤波器。
32 层的 ResNet GP 在 MNIST 上实现了 0.84% 的测试误差，为非参数 GP 方法设定了新记录，且参数量相当。
在所报告的设置下，基于核的 CNN 超越了先前的非参数 GP 方法在 MNIST 上的表现。
Residual CNN GP 和 ResNet GP 相对于 NNGP 与其他卷积 GP 基线显示出较强的性能。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。