[논문 리뷰] SpinalNet: Deep Neural Network with Gradual Input
SpinalNet은 입력, 중간, 출력으로 점차 분할된 입력을 층에 걸쳐 처리하는 신경망 아키텍처를 도입하여 매개변수를 줄이고 정확도를 향상시키며, MNIST 계열 및 기타 데이터세트에서 전이 학습 시나리오를 포함한 강력한 성능을 달성합니다.
Deep neural networks (DNNs) have achieved the state of the art performance in numerous fields. However, DNNs need high computation times, and people always expect better performance in a lower computation. Therefore, we study the human somatosensory system and design a neural network (SpinalNet) to achieve higher accuracy with fewer computations. Hidden layers in traditional NNs receive inputs in the previous layer, apply activation function, and then transfer the outcomes to the next layer. In the proposed SpinalNet, each layer is split into three splits: 1) input split, 2) intermediate split, and 3) output split. Input split of each layer receives a part of the inputs. The intermediate split of each layer receives outputs of the intermediate split of the previous layer and outputs of the input split of the current layer. The number of incoming weights becomes significantly lower than traditional DNNs. The SpinalNet can also be used as the fully connected or classification layer of DNN and supports both traditional learning and transfer learning. We observe significant error reductions with lower computational costs in most of the DNNs. Traditional learning on the VGG-5 network with SpinalNet classification layers provided the state-of-the-art (SOTA) performance on QMNIST, Kuzushiji-MNIST, EMNIST (Letters, Digits, and Balanced) datasets. Traditional learning with ImageNet pre-trained initial weights and SpinalNet classification layers provided the SOTA performance on STL-10, Fruits 360, Bird225, and Caltech-101 datasets. The scripts of the proposed SpinalNet are available at the following link: https://github.com/dipuk0506/SpinalNet
연구 동기 및 목표
- DNN에서의 계산 부하를 줄이면서 인간 체감이 신체 감각 시스템에서 점진적으로 입력을 처리하는 것을 흉내 내어 정확도를 높이는 것을 목표로 한다.
- 입력, 중간, 출력 분할을 갖는 SpinalNet 아키텍처를 제안하여 들어오는 가중치를 줄이고 DNN에서 FC와 분류 역할을 모두 가능하게 한다.
- SpinalNet의 보편 근사성을 입증하고 대규모 데이터셋에서 사전 학습된 모델을 활용하기 위한 이전 초기화를 탐구한다.
- MNIST 변형, QMNIST, EMNIST, CIFAR-10/100, STL-10, Fruits 360, Bird225, Caltech-101 및 기타 데이터셋을 포함한 다수 벤치마크에서 SpinalNet의 성능을 선보인다.
제안 방법
- SpinalNet을 각 층이 입력 분할, 중간 분할, 출력 분할로 나뉘는 층 구조로 설명한다.
- 각 입력 분할은 입력의 일부를 받고, 중간 분할은 이전 중간 분할의 출력과 현재 입력 분할의 출력을 받아들이며, 출력 분할은 가중된 중간 출력들을 모아 합산한다.
- 전통적인 완전 연결층에 비해 매개변수 수와 계산 비용이 감소한다는 점을 주장한다.
- 보편 근사성을Wide 단일 은닉층 네트워크와의 등가성을 보이며 이론적 논의를 제공하고, 이전 초기화에 대해 논의한다.
- 다양한 CNN 백본(VGG-5, ResNet, Wide-ResNet 등)에서 SpinalNet을 FC/분류 층으로 평가하고, 합성곱 가중치를 고정하지 않고 전이 학습을 통해 평가한다.
- SGD/Adam 최적화와 표준 데이터 증강을 사용하여 회귀 및 다중 분류 벤치마크에서 전통적인 FC층과 반복적으로 비교한다.
실험 결과
연구 질문
- RQ1SpinalNet이 다양한 데이터세트에서 더 적은 매개변수와 계산으로 경쟁력 있거나 최첨단의 정확도를 달성하는가?
- RQ2현대 CNN에서 완전 연결 또는 분류 층으로 사용될 때 SpinalNet의 성능은 전이 학습 여부에 따라 어떠한가?
- RQ3CIFAR-10/100, Caltech-101, Bird225 등 데이터세트에서의 transferred initialization이 SpinalNet 성능에 어떤 영향을 미치는가?
주요 결과
- SpinalNet은 MNIST에서 VGG-5(Spinal FC)로 거의 최첨단에 근접한 정확도 99.72%를 달성한다.
- QMNIST에서 CNN(Spinal FC)은 입력 분할 크기가 8과 10일 때 각각 97.97%와 98.07%의 정확도를 달성하고, VGG-5 with Spinal FC는 99.68%에 도달한다.
- 전이된 백본을 사용한 CIFAR-10/100에서 SpinalNet은 VGG-19_bn 기반 결과를 향상시키며, Spinal FC를 사용할 때 Bird225, Caltech-101 등에서 최첨단 성능에 도달할 수 있지만 백본에 따라 결과가 달라진다(Wide_ResNet-101_2에서 혼합 결과 등).
- 회귀 실험에서 SpinalNet은 곱셈을 35.5% 감소시키고 입력을 두 그룹으로 나눌 때 매개변수 수를 22k에서 14.3k로 낮추며 대부분의 조합에서 더 나은 MSE 성능을 보인다.
- 논문은 TI(전이 초기화)의 이점을 입증하며, 사전 학습된 네트워크 위에 Spinal FC를 적용할 때 CIFAR-10/100, Caltech-101, Bird225, Stanford Cars 등에서 눈에 띄는 이득을 얻는다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.