[论文解读] On Exact Computation with an Infinitely Wide Neural Net
本文提出一种精确、对 GPU 友好的算法,用于计算 CNN 的 CNTK;证明宽度有限时的宽网络收敛到 CNTK 核回归,并展示 CNTK 在 CIFAR-10 上实现强性能。
How well does a classic deep net architecture like AlexNet or VGG19 classify on a standard dataset such as CIFAR-10 when its width --- namely, number of channels in convolutional layers, and number of nodes in fully-connected internal layers --- is allowed to increase to infinity? Such questions have come to the forefront in the quest to theoretically understand deep learning and its mysteries about optimization and generalization. They also connect deep learning to notions such as Gaussian processes and kernels. A recent paper [Jacot et al., 2018] introduced the Neural Tangent Kernel (NTK) which captures the behavior of fully-connected deep nets in the infinite width limit trained by gradient descent; this object was implicit in some other recent papers. An attraction of such ideas is that a pure kernel-based method is used to capture the power of a fully-trained deep net of infinite width. The current paper gives the first efficient exact algorithm for computing the extension of NTK to convolutional neural nets, which we call Convolutional NTK (CNTK), as well as an efficient GPU implementation of this algorithm. This results in a significant new benchmark for the performance of a pure kernel-based method on CIFAR-10, being $10\%$ higher than the methods reported in [Novak et al., 2019], and only $6\%$ lower than the performance of the corresponding finite deep net architecture (once batch normalization, etc. are turned off). Theoretically, we also give the first non-asymptotic proof showing that a fully-trained sufficiently wide net is indeed equivalent to the kernel regression predictor using NTK.
研究动机与目标
- 激发对无穷宽 CNN 在像 CIFAR-10 这样的标准数据集上的表现的理解。
- 开发一个精确且高效的算法,用于计算 CNN 的卷积神经切线核(CNTK)。
- 证明充分训练的宽网络与使用 CNTK 的核回归之间的等价性。
- 提供非渐近收敛结果,并将 CNTK 的性能与有限宽度网络进行比较。
- 提供实用的 GPU 实现及基准测试,以推动对深度学习的基于核的理解。
提出的方法
- 定义具备无限宽度极限的神经网络架构,并将 CNTK 描述为输出对参数梯度所导出的核。
- 推导普通 CNN 以及带全局平均池化(GAP)的 CNN 的显式 CNTK 公式,包括卷积和池化步骤。
- 证明非渐近收敛:最小层宽度按 Omega(L^6/epsilon^4 log(L/delta)) 比例放大,以确保初始化时的 NTK 收敛(ReLU 激活)。
- 证明充分训练的宽网络与基于 NTK 的核回归之间的等价性,存在有限宽度扰动界(定理 3.2)。
- 给出基于动态规划的精确算法,以精准计算 CNTK,并优化在 GPU 上的实现。
实验结果
研究问题
- RQ1是否可以对带池化的卷积网络精确计算 CNTK?
- RQ2充分训练的无穷宽 CNN 是否在 NTK 下对应于核回归?
- RQ3基于 CNTK 的核性能与 CIFAR-10 的有限宽度 CNN 的性能相差多近?
- RQ4为保证核回归式行为,NTK 收敛所需的有限宽度条件是什么?
- RQ5深度和全局平均池化是否会显著影响 CNTK 在图像分类任务中的表现?
主要发现
- 使用 11 层 CNN-GAP 的 CNTK 在 CIFAR-10 上达到 77.43% 的准确率,领先于之前基于 GP 的核大约 10%。
- 当控制批归一化和数据增强时,带 GAP 的 11 层 CNTK 与相应的有限深度网络性能相差约 5%。
- CNTK-based kernels are significantly stronger than earlier fixed-kernel GP methods on CIFAR-10 by up to ~10%.
- 深度和全局平均池化显著影响 CNTK 的性能,GAP 相对于普通 CNN 提供了显著提升。
- CNTK(无穷宽)与有限 CNN 之间仍存在 5–6% 的差距,表明有限宽度的好处仍然存在。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。