[논문 리뷰] Sparse weight activation training
이 논문은 전방 및 역방향 전파 중에 작은 크기의 가중치와 활성화를 제거함으로써 동적으로 희소 네트워크 구조를 학습하는 새로운 CNN 훈련 알고리즘인 희소 가중치 활성화 훈련(SWAT)을 제안한다. SWAT는 훈련 계산을 50–90% 감소시키고 메모리 사용량을 최대 90%까지 줄이며, CIFAR-10, CIFAR-100 및 ImageNet에서 최신의 절단 기반 방법들과 비교해 유사하거나 더 높은 정확도를 달성한다.
Neural network training is computationally and memory intensive. Sparse training can reduce the burden, but it can affect network convergence. In this work, we propose a novel CNN training algorithm Sparse Weight Activation Training (SWAT). SWAT is : (1) more computation and memory-efficient than conventional training, (2) learns a sparse network topology directly, and (3) can be adapted to learn a structured or unstructured sparse topology. SWAT is developed based on insights derived from an empirical sensitivity analysis of network training on six different network architectures and three different datasets. Empirically, we find network convergence is robust to the elimination of small magnitude weights during the forward pass and small magnitude weights and activations during the backward pass. SWAT obtains efficiency by constraining the forward and backward pass during training. SWAT dynamically searches for a sparse topology. The dynamic search of the weights allows SWAT to train a wide variety of architectures such as ResNet, VGG, DenseNet and WideResNet up to 90% sparsity. SWAT demonstrates similar or better performance on CIFAR-10, CIFAR-100, and ImageNet dataset compared to other pruning and sparse learning algorithms. Moreover, SWAT reduces total computations during training by 50% to 90%, reduces memory footprint during the backward pass by 23% to 50% for activations and 50% to 90% for weights.
연구 동기 및 목표
- 딥 네트워크 훈련의 높은 계산 및 메모리 비용을 해결한다.
- 희소 훈련 방법과 자주 관련되는 수렴 불안정성 문제를 극복한다.
- 훈련 중에 구조적 및 비구조적 희소 구조를 동적으로 학습할 수 있는 훈련 알고리즘을 개발한다.
- 표준 벤치마크에서 모델 정확도를 희생시키지 않고도 상당한 효율성 향상을 달성한다.
- ResNet, VGG, DenseNet, WideResNet 등의 다양한 아키텍처를 최대 90%의 희소성으로 효율적으로 훈련할 수 있도록 한다.
제안 방법
- 전방 전파 중에 작은 크기의 가중치를 제거하는 동적 희소화 전략을 제안한다. 또한, 역방향 전파 중에는 작은 크기의 가중치와 활성화를 모두 제거한다.
- 여섯 개의 아키텍처와 세 가지 데이터셋을 대상으로 한 민감도 분석을 통해, 작은 가중치와 활성화를 제거하더라도 네트워크 수렴이 여전히 안정적임을 경험적으로 규명한다.
- 전방 및 역방향 전파가 모두 중요한 가중치와 활성화만 업데이트하고 저장하도록 제약을 둔 훈련 제도를 도입한다.
- 훈련 중에 최적의 희소 구조를 동적으로 탐색함으로써, 구조적 및 비구조적 희소성을 모두 가능하게 한다.
- 경험적 민감도 분석에서 도출된 통찰을 활용해 반복적인 정밀조정이나 재훈련이 필요 없이 프루닝 과정을 안내한다.
- 반복적인 프루닝 또는 정밀조정 단계 없이도 희소 네트워크의 엔드 투 엔드 훈련을 가능하게 한다.
실험 결과
연구 질문
- RQ1훈련 중에 작은 크기의 가중치와 활성화를 제거해도 딥 네트워크가 수렴성과 정확도를 유지할 수 있는가?
- RQ2모델 성능 저하 없이 CNN 훈련에서 계산과 메모리 사용량을 얼마나 줄일 수 있는가?
- RQ3단일 훈련 알고리즘이 다양한 아키텍처에서 구조적 및 비구조적 희소 구조를 동적으로 학습할 수 있는가?
- RQ4기존의 절단 및 희소 학습 기법과 비교했을 때, 제안된 방법은 효율성과 정확도 측면에서 어떻게 다른가?
- RQ5CIFAR-10, CIFAR-100 및 ImageNet과 같은 표준 벤치마크에서 안정적인 수렴이 가능한 최대 희소성은 얼마인가?
주요 결과
- SWAT는 다양한 아키텍처와 데이터셋에서 총 훈련 계산을 50%에서 90%까지 감소시킨다.
- 역방향 전파 중 활성화의 메모리 사용량은 23%에서 50%까지 감소하고, 가중치의 경우 50%에서 90%까지 감소한다.
- CIFAR-10, CIFAR-100 및 ImageNet에서 기존의 절단 및 희소 학습 알고리즘과 비교해 유사하거나 더 높은 정확도를 달성한다.
- SWAT는 ResNet, VGG, DenseNet 및 WideResNet 아키텍처를 최대 90%의 희소성으로 훈련시켜도 성능 저하가 크지 않게 한다.
- 전방 및 역방향 전파 중에 작은 크기의 가중치와 활성화를 프루닝해도 네트워크 수렴이 여전히 안정적이다.
- 동적 희소성 탐색 메커니즘이 전방 및 역방향 전파 중에 최적의 희소 구조를 적응적으로 학습할 수 있도록 한다. 사전에 정의된 희소성 패턴이 필요하지 않다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.