Skip to main content
QUICK REVIEW

[论文解读] Bayesian Convolutional Neural Networks with Many Channels are Gaussian Processes.

Roman Novak, Lechao Xiao|arXiv (Cornell University)|Oct 11, 2018
Gaussian Processes and Bayesian Inference被引用 13
一句话总结

该论文证明了具有大量通道的贝叶斯卷积神经网络(CNN)在无限通道极限下会收敛到高斯过程(GP),从而无需训练网络即可实现精确的GP推理。该研究提出了一种蒙特卡洛方法,即使在解析形式难以计算的情况下也能估计此类GP,并意外发现权重共享在无限通道极限下不影响GP结果,揭示了其与SGD训练的有限网络之间的关键差异。

ABSTRACT

There is a previously identified equivalence between wide fully connected neural networks (FCNs) and Gaussian processes (GPs). This equivalence enables, for instance, test set predictions that would have resulted from a fully Bayesian, infinitely wide trained FCN to be computed without ever instantiating the FCN, but by instead evaluating the corresponding GP. In this work, we derive an analogous equivalence for multi-layer convolutional neural networks (CNNs) both with and without pooling layers, and achieve state of the art results on CIFAR10 for GPs without trainable kernels. We also introduce a Monte Carlo method to estimate the GP corresponding to a given neural network architecture, even in cases where the analytic form has too many terms to be computationally feasible. Surprisingly, in the absence of pooling layers, the GPs corresponding to CNNs with and without weight sharing are identical. As a consequence, translation equivariance, beneficial in finite channel CNNs trained with stochastic gradient descent (SGD), is guaranteed to play no role in the Bayesian treatment of the infinite channel limit - a qualitative difference between the two regimes that is not present in the FCN case. We confirm experimentally, that while in some scenarios the performance of SGD-trained finite CNNs approaches that of the corresponding GPs as the channel count increases, with careful tuning SGD-trained CNNs can significantly outperform their corresponding GPs, suggesting advantages from SGD training compared to fully Bayesian parameter estimation.

研究动机与目标

  • 建立具有大量通道的贝叶斯CNN与高斯过程之间的等价性,将已知的全连接网络-GP等价性扩展至卷积架构。
  • 开发一种计算上可行的方法,用于估计给定CNN架构对应的GP,即使其解析表达式过于复杂而无法直接计算。
  • 研究在贝叶斯CNN的无限通道极限下,权重共享与平移等变性的作用,与有限SGD训练模型进行对比。
  • 评估SGD训练的有限CNN与对应贝叶斯无限通道GP之间的性能差距。

提出的方法

  • 推导了在无限通道极限下,带有和不带池化层的多层CNN所对应的GP的函数形式。
  • 提出一种蒙特卡洛采样方法,用于在解析表达式包含过多项而无法直接计算时估计GP核函数。
  • 证明对于无池化层的CNN,无论是否使用权重共享,其GP结果完全相同,表明在无限极限下平移等变性无影响。
  • 利用推导出的GP实现测试集预测,而无需训练神经网络,借助GP的闭式推理能力。
  • 利用GP核函数在CIFAR10上实现最先进性能,且无需可学习核函数,仅依赖架构先验。

实验结果

研究问题

  • RQ1宽全连接网络与高斯过程之间的等价性是否可扩展至具有大量通道的卷积神经网络?
  • RQ2当CNN架构对应的解析核表达式计算不可行时,如何估计其对应的GP?
  • RQ3在贝叶斯CNN的无限通道极限下,权重共享或平移等变性是否会影响GP结果?
  • RQ4SGD训练的有限CNN与对应贝叶斯无限通道GP之间的性能表现有何差异?

主要发现

  • 具有大量通道的贝叶斯CNN会收敛到高斯过程,从而实现无需训练网络的精确测试集预测。
  • 对于无池化层的CNN,无论是否使用权重共享,其对应的GP完全相同,表明在无限通道极限下平移等变性不产生影响。
  • 所提出的蒙特卡洛方法可实现即使在解析核过于复杂而无法直接评估时的GP推理。
  • 基于GP的方法在CIFAR10上实现了最先进性能,且无需可学习核函数,优于以往基于GP的方法。
  • 尽管收敛到相同的GP,但经过仔细调优的SGD训练有限CNN仍可显著优于其对应的贝叶斯无限通道GP,表明SGD优化具有额外优势。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。