[論文レビュー] SpinalNet: Deep Neural Network with Gradual Input
SpinalNetは、入力、中間、出力の層分割を段階的に行うニューラルネットワークアーキテクチャを導入し、パラメータを削減し精度を向上させ、MNISTファミリーおよびその他のデータセットで強力な結果を達成し、転移学習シナリオを含む。
Deep neural networks (DNNs) have achieved the state of the art performance in numerous fields. However, DNNs need high computation times, and people always expect better performance in a lower computation. Therefore, we study the human somatosensory system and design a neural network (SpinalNet) to achieve higher accuracy with fewer computations. Hidden layers in traditional NNs receive inputs in the previous layer, apply activation function, and then transfer the outcomes to the next layer. In the proposed SpinalNet, each layer is split into three splits: 1) input split, 2) intermediate split, and 3) output split. Input split of each layer receives a part of the inputs. The intermediate split of each layer receives outputs of the intermediate split of the previous layer and outputs of the input split of the current layer. The number of incoming weights becomes significantly lower than traditional DNNs. The SpinalNet can also be used as the fully connected or classification layer of DNN and supports both traditional learning and transfer learning. We observe significant error reductions with lower computational costs in most of the DNNs. Traditional learning on the VGG-5 network with SpinalNet classification layers provided the state-of-the-art (SOTA) performance on QMNIST, Kuzushiji-MNIST, EMNIST (Letters, Digits, and Balanced) datasets. Traditional learning with ImageNet pre-trained initial weights and SpinalNet classification layers provided the SOTA performance on STL-10, Fruits 360, Bird225, and Caltech-101 datasets. The scripts of the proposed SpinalNet are available at the following link: https://github.com/dipuk0506/SpinalNet
研究の動機と目的
- 人間の体性感覚系での徐々の入力処理を模倣することにより、DNNの計算負荷を低減しつつ精度を向上させる動機づけ。
- 入力・中間・出力の分割を備えたSpinalNetアーキテクチャを提案し、入力重みを低減し、DNNにおける全結合(FC)と分類の役割の両方を可能にする。
- SpinalNetの普遍近似性を示し、巨大データセット上の事前学習モデルを活用する転移初期化を検討する。
- SpinalNetの性能を、MNIST系変種、QMNIST、EMNIST、CIFAR-10/100、STL-10、Fruits 360、Bird225、Caltech-101、その他のデータセットを含む複数のベンチマークで示す。
提案手法
- SpinalNetを、各層が入力・中間・出力の分割に分割される層構造として説明する。
- 各入力分割は入力の一部を受け取り、現在の入力分割と前の中間分割の出力を受け取る中間分割、そして出力分割は中間出力を重み付きで集約する。
- 従来の全結合層に比べてパラメータ数と計算コストの削減を主張する。
- 幅広い単一隠れ層ネットワークとの同等性を示すことで普遍近似性を理論的に議論し、転移初期化についても論じる。
- SpinalNetを、VGG-5、ResNet、Wide-ResNetなどのさまざまなCNNバックボーンでのFC/分類層として評価し、畳み込みウェイトを凍結せずに転移学習を通じて評価する。
- 回帰と複数の分類ベンチマークに対して、従来のFC層と反復的に比較し、SGD/Adam最適化および標準的データ拡張を用いる。
実験結果
リサーチクエスチョン
- RQ1SpinalNetは、さまざまなデータセットでより少ないパラメータと計算量で競争力のあるまたは最先端の精度を達成しますか?
- RQ2現代のCNN内で全結合または分類層として使用した場合、転移学習の有無にかかわらずSpinalNetはどう機能しますか?
- RQ3CIFAR-10/100、Caltech-101、Bird225 などのデータセットに対するSpinalNetの性能に対する転移初期化の影響はどの程度ですか?
主な発見
- SpinalNetはMNISTでほぼ最先端の精度を達成し、VGG-5(Spinal FC)は99.72%に到達。
- QMNISTでは、CNN(Spinal FC)がスパイナル層サイズ8と10でそれぞれ97.97%と98.07%の精度を達成し、VGG-5 with Spinal FCは99.68%に到達。
- 事前学習済みバックボーンを用いたCIFAR-10/100において、SpinalNetはVGG-19_bnベースの結果を改善し、Spinal FCとして使用することでBird225、Caltech-101などのいくつかのデータセットで最先端の性能を達成できるが、バックボーンによって結果は異なる(Wide_ResNet-101_2では混合結果)。
- 回帰実験では、SpinalNetは乗算を35.5%削減し、二グループの入力設定でパラメータ数を22kから14.3kへ低減し、ほとんどの組み合わせでMSE性能が向上。
- 本論文は転移初期化(TI)の利点を示しており、事前学習済みネットワークの上にSpinal FCを適用した場合にCIFAR-10/100、Caltech-101、Bird225、Stanford Carsなどのデータセットで顕著な改善を達成。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。