[论文解读] Deep Convolutional Networks as shallow Gaussian Processes
该论文表明,在具有无穷滤波器的 CNN(包括 ResNets)等价于通过推导得到、高效的核的高斯过程;该 ConvNet GP 在无需对参数化的 CNN 进行训练的情况下实现了与 MNIST 竞争的结果。
We show that the output of a (residual) convolutional neural network (CNN) with an appropriate prior over the weights and biases is a Gaussian process (GP) in the limit of infinitely many convolutional filters, extending similar results for dense networks. For a CNN, the equivalent kernel can be computed exactly and, unlike "deep kernels", has very few parameters: only the hyperparameters of the original CNN. Further, we show that this kernel has two properties that allow it to be computed efficiently; the cost of evaluating the kernel for a pair of images is similar to a single forward pass through the original CNN with only one filter per layer. The kernel equivalent to a 32-layer ResNet obtains 0.84% classification error on MNIST, a new record for GPs with a comparable number of parameters.
研究动机与目标
- 在安全关键环境中为 CNNs 引入不确定性估计和鲁棒贝叶斯推断的动机。
- 证明深层 CNNs 和带无限滤波器的 ResNets 收敛到高斯过程。
- 推导一个高效的 ConvNet GP 核,利用对角协方差和补丁级结构。
- 在 MNIST 上展示经验性能,在 GP 基础上达到有竞争力或最先进的结果。
提出的方法
- 为每层定义一个具有高斯权重和偏置的二维卷积网络先验。
- 通过在层数趋于无穷时应用多变量中心极限定理来证明 GP 行为。
- 通过仅通过网络传播对角协方差(补丁级方差)来推导一个计算高效的核。
- 对常见非线性函数提供闭式协方差更新(如 ReLU、erf),以计算核。
- 通过显示跳跃连接下 GP 行为保持,将核扩展到残差 CNN。
- 在 MNIST 上进行实验,将 ConvNet GP、Residual CNN GP 与 ResNet GP 与其他 GP 基线进行比较。
实验结果
研究问题
- RQ1在无限滤波器极限下,CNN 或 ResNet 架构是否可以被精确表示为高斯过程?
- RQ2如何计算一个高效的 CNN 基 GP 的核,能够保持平移不变量和结构?
- RQ3在 MNIST 上相对于先前的 GP 方法,CNN/ResNet GP 核的经验性能如何?
- RQ4残差连接是否保持 GP 属性并在基于核的图像任务中改进性能?
主要发现
| 方法 | #样本数 | 验证误差 | 测试误差 |
|---|---|---|---|
| NNGP (Lee et al. 2017) | ≈ 250 | – | 1.21% |
| Convolutional GP (van der Wilk et al. 2017) | SGD | – | 1.17% |
| Deep Conv. GP (Kumar et al. 2018) | SGD | – | 1.34% |
| ConvNet GP | 27 | 0.71% | 1.03% |
| Residual CNN GP | 27 | 0.71% | 0.93% |
| ResNet GP | – | – | 0.84% |
| GP + parametric deep kernel (Bradshaw et al., 2017) | SGD | – | 0.60% |
| ResNet (Chen et al., 2018) | – | – | 0.41% |
- 具有适当权重/偏置先验的 CNN 的输出(包括残差变体)在无限滤波器极限下收敛为 GP。
- 可以推导出一个对 CNN 精确且高效可计算的核,只需要原始 CNN 的超参数。
- 核评估成本与相应 CNN 的单次前向传播所需成本相似,且每层只有一个滤波器。
- 32 层的 ResNet GP 在 MNIST 上实现了 0.84% 的测试误差,为非参数 GP 方法设定了新记录,且参数量相当。
- 在所报告的设置下,基于核的 CNN 超越了先前的非参数 GP 方法在 MNIST 上的表现。
- Residual CNN GP 和 ResNet GP 相对于 NNGP 与其他卷积 GP 基线显示出较强的性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。