[论文解读] Tensor Programs I: Wide Feedforward or Recurrent Neural Networks of Any Architecture are Gaussian Processes
本文证明标准架构的广义前馈与循环神经网络在宽度趋于无穷时收敛到高斯过程,并引入 NETSOR 来表达计算,同时为各种结构推导高斯过程核函数。
Wide neural networks with random weights and biases are Gaussian processes, as originally observed by Neal (1995) and more recently by Lee et al. (2018) and Matthews et al. (2018) for deep fully-connected networks, as well as by Novak et al. (2019) and Garriga-Alonso et al. (2019) for deep convolutional networks. We show that this Neural Network-Gaussian Process correspondence surprisingly extends to all modern feedforward or recurrent neural networks composed of multilayer perceptron, RNNs (e.g. LSTMs, GRUs), (nD or graph) convolution, pooling, skip connection, attention, batch normalization, and/or layer normalization. More generally, we introduce a language for expressing neural network computations, and our result encompasses all such expressible neural networks. This work serves as a tutorial on the *tensor programs* technique formulated in Yang (2019) and elucidates the Gaussian Process results obtained there. We provide open-source implementations of the Gaussian Process kernels of simple RNN, GRU, transformer, and batchnorm+ReLU network at github.com/thegregyang/GP4A.
研究动机与目标
- 为超越多层感知机(MLP)和简单卷积神经网络(CNN)而存在的广义、随机初始化网络的神经网络-高斯过程对应关系提供动机与形式化描述。
- 引入 NETSOR 作为以统一方式表达神经网络计算的语言。
- 在大宽度极限下,给出可由 NETSOR 表达的架构的一般高斯过程收敛性结论(定理)。
- 为若干架构(如简单 RNN、GRU、Transformer、批量归一化网络等)提供核计算与开源实现。
- 为将来扩展到矩阵转置和神经网络端点核(NTK)分析打下基础。
提出的方法
- 用可变维度输出来定义高斯过程以处理 RNN。
- 开发 NETSOR 与 NETSOR+ 语言以表达标准神经网络计算。
- 建立定理 5.4(NETSOR 主定理),在受控非线性下宽度 → ∞ 时给出几乎必然收敛到高斯过程的结果。
- 推导推论 5.5 以从 NETSOR 编码中计算高斯过程核。
- 为如简单 RNN、GRU、Transformer、以及 batchnorm+ReLU 等架构提供核计算,并进行经验验证。
- 提供对应于无限宽度极限的开源核实现。
实验结果
研究问题
- RQ1标准架构(包括 RNN、LSTM、GRU、CNN、基于注意力的模型,以及批量归一化/层归一化变体)的广义神经网络会收敛到高斯过程吗?
- RQ2是否存在一个统一语言(NETSOR)来表达这些架构并实现一般的高斯过程收敛性结果?
- RQ3如何基于它们的 NETSOR 编码计算多样化架构的高斯过程核?
- RQ4在跨架构的有限宽度网络中,无限宽度高斯过程预测的经验有效性如何?
- RQ5将高斯过程对应推广到现代组件如注意力机制和归一化层的理论与实践含义为何?
主要发现
- 标准架构的宽度趋向无穷时,在权重和偏置随机初始化下,广义的前馈和循环网络收敛到高斯过程。
- NETSOR 框架统一表达神经网络计算,并且能够为包括 RNN、GRU、Transformer、跳跃连接、池化、批量归一化和层归一化在内的架构建立高斯过程收敛性。
- NETSOR 主定理提供一种通过具有均值 μ 和协方差 Σ 的高斯输入来计算极限分布和高斯过程核的方法。
- 推论表明网络输出在网络结构的作用下与由核 K 决定的联合高斯分布相关。
- 经验性演示表明有限宽度的网络(例如宽度为 1000)在 RNN、GRU、Transformer 与 BN+ReLU 等网络中,协方差结构和联合分布与无限宽度高斯过程预测相近。
- 若干架构的高斯过程核的开源实现可在 github.com/thegregyang/GP4A 获得。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。