[논문 리뷰] Efficient Sparse-Winograd Convolutional Neural Networks
본 논문은 Winograd-ReLU CNN을 제시합니다. 이 모델은 Winograd 도메인에서 가중치를 학습하고 가지치기를 수행하며, ReLU를 Winograd 도메인으로 옮겨 희소성과 연산을 정렬합니다. CIFAR-10, CIFAR-100, ImageNet 전반에서 최소한의 정확도 손실로 곱셈을 최대 약 10배 줄일 수 있습니다.
Convolutional Neural Networks (CNNs) are computationally intensive, which limits their application on mobile devices. Their energy is dominated by the number of multiplies needed to perform the convolutions. Winograd's minimal filtering algorithm (Lavin, 2015) and network pruning (Han et al., 2015) can reduce the operation count, but these two methods cannot be directly combined $-$ applying the Winograd transform fills in the sparsity in both the weights and the activations. We propose two modifications to Winograd-based CNNs to enable these methods to exploit sparsity. First, we move the ReLU operation into the Winograd domain to increase the sparsity of the transformed activations. Second, we prune the weights in the Winograd domain to exploit static weight sparsity. For models on CIFAR-10, CIFAR-100 and ImageNet datasets, our method reduces the number of multiplications by $10.4 imes$, $6.8 imes$ and $10.8 imes$ respectively with loss of accuracy less than $0.1\%$, outperforming previous baselines by $2.0 imes$-$3.0 imes$. We also show that moving ReLU to the Winograd domain allows more aggressive pruning.
연구 동기 및 목표
- Winograd 합성과 희소성을 결합하여 모바일 배치를 위한 CNN 계산량 감소의 필요성을 제시한다.
- Winograd 변환을 사용할 때 가중치와 활성화 모두에서 희소성 활용을 가능하게 한다.
- 변환 도메인 가지치기 및 학습 절차를 갖춘 Winograd-ReLU 아키텍처를 제안한다.
- CIFAR-10, CIFAR-100, ImageNet에서 정확도에 미미한 영향을 주면서도 곱셈 감소를 크게 시연한다.
제안 방법
- 곱셈을 줄이기 위해 Winograd의 최소 필터링을 4x4로 변환된 커널(p=4)로 사용한다.
- 곱셈 시점의 활성화 희소성을 높이기 위해 ReLU를 공간 도메인에서 Winograd 도메인으로 이동한다.
- 변환 후 변환된 Winograd-도메인 가중치를 가지치기하여 정적 가중치 희소성을 활용한다.
- Winograd 도메인에서 밀집하게 학습하고, 고정 임계값으로 변환된 커널을 가지치기하여 목표 밀도를 달성하며, 희소성 마스크로 재학습한다.
- 변환 도메인에서 Winograd-weight 기울도 및 입력 활성화에 대한 역전파 업데이트를 제공한다(Equation 5).
실험 결과
연구 질문
- RQ1ReLU를 Winograd 도메인으로 옮김으로써 Winograd 합성곱을 사용할 때 희소성을 효과적으로 활용할 수 있는가?
- RQ2표준 벤치마크에서 곱셈을 크게 줄이면서도 Winograd 도메인에서의 가지치기가 정확도를 유지하는가?
- RQ3CIFAR-10, CIFAR-100, ImageNet에서 Winograd를 희소 활성화 및 가중치와 결합했을 때 계산 측면의 비교 이득은 무엇인가?
주요 결과
- CIFAR-10에서 Winograd-ReLU 모델은 기준 대비 곱셈을 최대 10.4x 감소시키고 <0.1% 정확도 손실을 보인다.
- CIFAR-100에서 Winograd-ReLU 모델은 기준 대비 곱셈을 최대 10.8x 감소시키고 <0.1% 정확도 손실을 보인다.
- ImageNet에서 Winograd-ReLU 모델은 기준 대비 곱셈을 최대 10.8x 감소시키고 <0.1% 정확도 손실을 보인다.
- 데이터셋 전반에 걸쳐 Winograd-ReLU 접근법은 전통적 Winograd 또는 공간 가지치기 베이스라인보다 작업 부하 감소 측면에서 2.0x–3.0x의 우수한 성능을 꾸준히 보인다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.