[论文解读] Enhanced Convolutional Neural Tangent Kernels
该论文通过局部平均池化(LAP)和基于补丁的预处理方法提升 CNTK/CNN-GP 的性能,在 CIFAR-10 上达到最新非训练核准确率(最高可达 89%),在 Fashion-MNIST 上也取得了强劲结果。
Recent research shows that for training with $\ell_2$ loss, convolutional neural networks (CNNs) whose width (number of channels in convolutional layers) goes to infinity correspond to regression with respect to the CNN Gaussian Process kernel (CNN-GP) if only the last layer is trained, and correspond to regression with respect to the Convolutional Neural Tangent Kernel (CNTK) if all layers are trained. An exact algorithm to compute CNTK (Arora et al., 2019) yielded the finding that classification accuracy of CNTK on CIFAR-10 is within 6-7% of that of that of the corresponding CNN architecture (best figure being around 78%) which is interesting performance for a fixed kernel. Here we show how to significantly enhance the performance of these kernels using two ideas. (1) Modifying the kernel using a new operation called Local Average Pooling (LAP) which preserves efficient computability of the kernel and inherits the spirit of standard data augmentation using pixel shifts. Earlier papers were unable to incorporate naive data augmentation because of the quadratic training cost of kernel regression. This idea is inspired by Global Average Pooling (GAP), which we show for CNN-GP and CNTK is equivalent to full translation data augmentation. (2) Representing the input image using a pre-processing technique proposed by Coates et al. (2011), which uses a single convolutional layer composed of random image patches. On CIFAR-10, the resulting kernel, CNN-GP with LAP and horizontal flip data augmentation, achieves 89% accuracy, matching the performance of AlexNet (Krizhevsky et al., 2012). Note that this is the best such result we know of for a classifier that is not a trained neural network. Similar improvements are obtained for Fashion-MNIST.
研究动机与目标
- 研究固定核在图像分类中的 CNTK/CNN-GP 的局限性。
- 开发将数据增强高效地整合到核回归中的方法。
- 提出局部平均池化(LAP)和基于补丁的预处理技术以提高 CNTK/CNN-GP 的准确性。
- 证明在对称群下增强核与数据增强之间的等价性。
提出的方法
- 提出局部平均池化(LAP)作为基于对称性的池化变体,源自 CNTK/CNN-GP 的动态规划公式。
- 证明 LAP 相当于一种局部平移数据增强的形式,而不需要 GAP 的全部计算成本。
- 定义并使用来自 Coates 等人 (2011) 的基于补丁的预处理方案,从训练补丁中生成随机卷积滤波器。
- 将 LAP 与水平翻转增强以及核岭回归相结合,在 CIFAR-10 和 Fashion-MNIST 上评估改进。
- 证明在圆形填充下,带 GAP 的增强核对应于完整的平移数据增强,并将 LAP 推导为局部类比。
实验结果
研究问题
- RQ1通过 LAP 将数据增强整合到核计算中,CNTK/CNN-GP 的性能是否能显著提升?
- RQ2在 CNTK/CNN-GP 中,局部平均池化(LAP)与全局平均池化(GAP)以及无池化相比效果如何?
- RQ3使用带有随机补丁的基于补丁的预处理步骤是否能将非训练核方法提升至与在 CIFAR-10 上训练的卷积神经网络相匹配?
- RQ4在不同网络深度和数据集(CIFAR-10、Fashion-MNIST)中,LAP 与水平翻转增强的效果如何?
主要发现
- 在 CIFAR-10 上,带 LAP 的 CNN-GP 达到 81% 的准确率,约领先先前最佳的核预测方法 3 个点。
- 带 LAP 的 CNN-GP 结合水平翻转增强在 CIFAR-10 上达到 89% 的准确率,达到 AlexNet 的性能水平且仍为非训练。
- 在消融研究中,CNTK 和 CNN-GP 配合 LAP 在 CIFAR-10 与 Fashion-MNIST 的表现相较基线 CNTK/CNN-GP 均有持续改进。
- 使用随机补丁作为滤波器,结合 Coates 等人 (2011) 方法、LAP 与水平翻转,在非深度网络设置下实现显著提升,在 CIFAR-10 上达到最高 88.92%(与 AlexNet 相匹配)。
- 在 Fashion-MNIST 上,LAP 提升 CNTK/CNN-GP 的性能,最佳结果出现在中等的 c 值处,而水平翻转增强的影响力不及在 CIFAR-10。
- 另一种方法将 CNTK/CNN-GP 与额外的预处理(随机补丁、ZCA、均值中心化)相结合,进一步提升 CIFAR-10 的性能,超过 Coates 等人基线,接近 AlexNet 水平。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。