QUICK REVIEW

[论文解读] Neural Kernels Without Tangents

Vaishaal Shankar, Alex Chengyu Fang|arXiv (Cornell University)|Mar 4, 2020

Advanced Neural Network Applications参考文献 27被引用 35

一句话总结

本文从特征袋构建组合核，以模拟神经网络操作（卷积、池化、非线性），并在视觉数据和表格数据上将核性能与神经网络和 NTK 进行比较，显示出较强的相关性和实用的核设计洞见。

ABSTRACT

We investigate the connections between neural networks and simple building blocks in kernel space. In particular, using well established feature space tools such as direct sum, averaging, and moment lifting, we present an algebra for creating "compositional" kernels from bags of features. We show that these operations correspond to many of the building blocks of "neural tangent kernels (NTK)". Experimentally, we show that there is a correlation in test error between neural network architectures and the associated kernels. We construct a simple neural network architecture using only 3x3 convolutions, 2x2 average pooling, ReLU, and optimized with SGD and MSE loss that achieves 96% accuracy on CIFAR10, and whose corresponding compositional kernel achieves 90% accuracy. We also use our constructions to investigate the relative performance of neural networks, NTKs, and compositional kernels in the small dataset regime. In particular, we find that compositional kernels outperform NTKs and neural networks outperform both kernel methods.

研究动机与目标

通过组合核研究神经网络架构与核空间之间的经验联系。
开发一组特征空间操作（拼接、下采样、嵌入），以从特征袋构建具表达力的核。
直接从数据计算这些组合核，而无需随机特征近似。
比较神经网络、NTK 和组合核在 CIFAR-10、CIFAR-100、MNIST、CIFAR-10.1 以及 90 个 UCI 数据集上的性能。
评估预处理和数据增强如何影响核与神经网络的性能。

提出的方法

定义一个名为 bag-of-features 的框架，包含索引集 B 和特征空间 H（例如，将图像视为由 3D 彩色向量组成的特征袋）。
引入对特征袋保持核性质的三种操作：拼接、下采样（池化）、嵌入。
推导每种操作的核计算，使得能够仅通过图像数据在没有显式特征映射的情况下构造确切的核。
通过输入核、卷积、平均池化以及 ReLU 或高斯嵌入，将这些操作专门应用于图像。
通过深度逐层级联和使用随机特征的期望值计算，将组合核与神经网络架构联系起来，遵循 Daniely 等人和 Jacot 等人的工作。

实验结果

研究问题

RQ1由简单特征空间操作构建的组合核是否能逼近神经网络和 NTKs 的表达能力？
RQ2核空间中的卷积、池化和非线性如何对应于它们在神经网络中的对应操作？
RQ3Myrtle 家族卷积核相对于 NTKs 与 CNNs 在 CIFAR-10、CIFAR-100 和 MNIST 上的经验性能如何？
RQ4预处理（如 ZCA）和数据增强在小数据和标准规模下如何影响核与神经网络的性能？
RQ5这些核结构能否扩展到大规模数据集，以及有哪些计算瓶颈？

主要发现

一个包含 3x3 卷积、2x2 平均池化和 ReLU 的简单网络在 CIFAR-10 上使用 SGD 和 MSE 损失达到 96% 的准确率，而相应的组合核达到 90%。
在 CIFAR-10 上，在同一架构族下，组合核显著优于 NTK。
在小数据情境中，组合核优于 NTK，且当调参得当时，神经网络超越两种核方法。
在 MNIST 上，卷积核和卷积网络达到相似的高准确率，且都优于非卷积基线（NTK、arccosine、Gaussian）。
在 CIFAR-100 上，最佳组合核与未使用增广的 CNN 相匹配；应用增广或 BatchNorm 时有改进；在这里 CNN 的交叉熵损失比 MSE 更易优化。
在 90 个 UCI 数据集上，Gaussian 核在修订后的交叉验证评估协议下表现与 NTK 相当或更好。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。