[论文解读] SpinalNet: Deep Neural Network with Gradual Input
SpinalNet 引入一种神经网络架构,通过在各层逐步分割输入(输入、中间、输出分割)来降低参数量并提高准确性,在 MNIST 家族及其他数据集上取得强劲效果,包括迁移学习情景。
Deep neural networks (DNNs) have achieved the state of the art performance in numerous fields. However, DNNs need high computation times, and people always expect better performance in a lower computation. Therefore, we study the human somatosensory system and design a neural network (SpinalNet) to achieve higher accuracy with fewer computations. Hidden layers in traditional NNs receive inputs in the previous layer, apply activation function, and then transfer the outcomes to the next layer. In the proposed SpinalNet, each layer is split into three splits: 1) input split, 2) intermediate split, and 3) output split. Input split of each layer receives a part of the inputs. The intermediate split of each layer receives outputs of the intermediate split of the previous layer and outputs of the input split of the current layer. The number of incoming weights becomes significantly lower than traditional DNNs. The SpinalNet can also be used as the fully connected or classification layer of DNN and supports both traditional learning and transfer learning. We observe significant error reductions with lower computational costs in most of the DNNs. Traditional learning on the VGG-5 network with SpinalNet classification layers provided the state-of-the-art (SOTA) performance on QMNIST, Kuzushiji-MNIST, EMNIST (Letters, Digits, and Balanced) datasets. Traditional learning with ImageNet pre-trained initial weights and SpinalNet classification layers provided the SOTA performance on STL-10, Fruits 360, Bird225, and Caltech-101 datasets. The scripts of the proposed SpinalNet are available at the following link: https://github.com/dipuk0506/SpinalNet
研究动机与目标
- 动机:在深度神经网络中降低计算负担,同时通过模仿人类躯体感觉系统的逐步输入处理来提升准确性。
- 提出带有输入分割、 中间分割和输出分割的 SpinalNet 架构,以降低进入权重并使其在 DNN 中同时具备全连接和分类的功能。
- 展示 SpinalNet 的通用近似性,并探索迁移初始化以利用在大型数据集上预训练的模型。
- 展示 SpinalNet 在包括 MNIST 变体、QMNIST、EMNIST、CIFAR-10/100、STL-10、Fruits 360、Bird225、Caltech-101 等数据集及其他数据集上的表现。
提出的方法
- 描述 SpinalNet 作为一个层结构,其中每一层被分为输入分割、中间分割和输出分割。
- 每个输入分割接收输入的一部分,中间分割接收前一个中间分割的输出和当前输入分割的输出,输出分割对加权的中间输出进行聚合。
- 论证与传统全连接层相比,参数量和计算成本有所降低。
- 提供理论讨论,包括通过证明等价于一个宽的单隐层网络来实现通用近似,并讨论迁移初始化。
- 在多种卷积神经网络骨架(如 VGG-5、ResNet、Wide-ResNet)中将 SpinalNet 作为全连接/分类层进行评估,并在不冻结卷积权重的情况下进行迁移学习。
- 通过迭代比较与传统 FC 层在回归和多项分类基准测试中的表现,使用 SGD/Adam 优化和标准数据增强。
实验结果
研究问题
- RQ1SpinalNet 是否在不同数据集上以更少的参数和计算实现具有竞争力或最先进的准确性?
- RQ2在现代 CNN 中将 SpinalNet 用作全连接或分类层时的表现如何,有迁移学习与否?
- RQ3迁移初始化对 SpinalNet 在 CIFAR-10/100、Caltech-101、Bird225 等数据集上的性能有何影响?
主要发现
- SpinalNet 在 MNIST 上达到接近最先进的准确性,使用 VGG-5(Spinal FC)达到 99.72%。
- 在 QMNIST 上,CNN(Spinal FC) 在脊柱层大小为 8 和 10 时分别达到 97.97% 和 98.07% 的准确率,而 VGG-5 搭配 Spinal FC 达到 99.68%。
- 在带有预训练骨干网的 CIFAR-10/100 情况下,SpinalNet 提升了基于 VGG-19_bn 的结果,并且在用作 Spinal FC 时可以在若干数据集上达到最先进的性能(如 Bird225、Caltech-101),尽管结果随骨干网而异(如 Wide_ResNet-101_2 上结果参差)。
- 回归实验表明 SpinalNet 将乘法运算减少 35.5%,在双组输入设置下参数数量从 22k 降至 14.3k,并且在大多数组合中具有更好的均方误差(MSE)表现。
- 本文展示了迁移初始化(TI)的优势,在将 Spinal FC 应用于预训练网络之上时,在 CIFAR-10/100、Caltech-101、Bird225、Stanford Cars 以及其他数据集上取得显著提升。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。