QUICK REVIEW

[논문 리뷰] SCAN: A Scalable Neural Networks Framework Towards Compact and Efficient Models

Linfeng Zhang, Zhanhong Tan|arXiv (Cornell University)|2019. 05. 27.

Advanced Neural Network Applications인용 수 32

한 줄 요약

SCAN은 중간 특징에 얕은 분류기를 학습시키고 자기 증류와 주의 집중을 통해 백본 전반에 걸친 압축 및 가속과 함께 확장 가능한 샘플-특정 추론을 가능하게 한다. 이는 얕은 분류기의 정확도 향상을 가져오고 전반적인 속도 증가를 최소한의 오버헤드로 제공한다.

ABSTRACT

Remarkable achievements have been attained by deep neural networks in various applications. However, the increasing depth and width of such models also lead to explosive growth in both storage and computation, which has restricted the deployment of deep neural networks on resource-limited edge devices. To address this problem, we propose the so-called SCAN framework for networks training and inference, which is orthogonal and complementary to existing acceleration and compression methods. The proposed SCAN firstly divides neural networks into multiple sections according to their depth and constructs shallow classifiers upon the intermediate features of different sections. Moreover, attention modules and knowledge distillation are utilized to enhance the accuracy of shallow classifiers. Based on this architecture, we further propose a threshold controlled scalable inference mechanism to approach human-like sample-specific inference. Experimental results show that SCAN can be easily equipped on various neural networks without any adjustment on hyper-parameters or neural networks architectures, yielding significant performance gain on CIFAR100 and ImageNet. Codes will be released on github soon.

연구 동기 및 목표

모델 크기의 증가와 계산 요구가 커지는 상황에서 확장 가능한 엣지 친화적 신경망의 필요성을 제시한다.
SCAN은 네트워크를 섹션으로 분할하고 주의(attention)와 증류를 갖춘 얕은 분류기를 추가하는 것을 제안한다.
정해진 임계값 기반의 확장 가능한 실행으로 샘플-특정 추론을 가능하게 하여 정확도와 속도의 균형을 맞춘다.
기본 아키텍처나 하이퍼파라미터를 변경하지 않은 채 SCAN이 CIFAR100 및 ImageNet에서 정확도를 개선하고 계산 속도를 높임을 입증한다.

제안 방법

백본 네트워크를 세 구획으로 나눈다: 백본, 어텐션 모듈, 얕은 분류기들.
중간 특징 뒤에 병목층(bottleneck)과 완전 연결 층(fully connected layer)을 연결하여 얕은 분류기를 구성한다.
학습 중 가장 깊은 분류기로부터 얕은 분류기로 지식을 전이하도록 자기 증류(self distillation)를 사용한다.
얕은 분류기에 특화된 특징을 생성하기 위한 간소화된 어텐션 모듈을 도입한다.
임계값 기반의 확장 가능한 추론을 적용하여 얕은 분류기를 사용할지 더 깊은 분류기를 사용할지 결정하고, 임계값은 유전 알고리즘으로 탐색한다.
필요에 따라 정확도 향상을 위해 예측을 앙상블한다.

실험 결과

연구 질문

RQ1백본을 수정하지 않고도 자기 증류와 주의 집중의 결합이 얕은 분류기의 정확도를 향상시킬 수 있는가?
RQ2임계값 기반의 확장 가능한 추론이 데이터셋과 아키텍처에 걸쳐 의미 있는 속도 향상을 제공하되 정확도 손실은 미미한가?
RQ3표준 벤치마크(CIFAR100, ImageNet)에서 다양한 백본(VGG, ResNet, Wide ResNet)에 걸쳐 SCAN은 어떻게 성능을 보이는가?

주요 결과

SCAN은 CIFAR100 평균에서 2.17배 가속과 3.20배 압축을 달성하고 정확도 감소 없이 얕은 분류기에 대해 최대 4.05% 절대 정확도 향상을 보인다.
CIFAR100에서 더 깊거나 더 넓은 네트워크가 정확도와 속도 측면에서 SCAN의 혜택을 더 크게 받는다.
ImageNet에서 SCAN으로 평균 1.26%의 정확도 향상이 있으며 깊이에 따른 이득이 나타나고(예: ResNet50에서 최대 1.41%).
확장 가능한 추론은 단일 얕은 분류기를 사용하는 것보다 더 높은 가속을 제공하며, 예를 들어 CIFAR100에서 정확도 손실 없이 최대 4.41배, 더 깊은 네트에서 최대 6.23배이다.
어텐션 모듈은 얕은 분류기에 주목할 만한 정확도 향상을 제공한다(예: ResNet50 CIFAR100의 경우 5.46%, 4.13%, 5.16%의 이득).
시각화는 주의가 정보가 많은 영역(예: 동물의 몸)을 집중하고 얕은 분류기에서는 지역 특징에서, 더 깊은 네트워크에서는 더 글로벌한 질감으로 이동한다는 것을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.