[논문 리뷰] Learning Best Combination for Efficient N:M Sparsity
본 논문은 N:M 희소성을 조합 선택 문제로 재구성하고 Learning Best Combination(LBC)을 제안한다. LBC는 후보 가중치 부분집합마다 점수를 학습하며 표준 학습 과정에서 점수가 낮은 조합을 점진적으로 가지치기하여 강력한 정확도와 함께 효율적인 N:M 희소성을 달성한다.
By forcing at most N out of M consecutive weights to be non-zero, the recent N:M network sparsity has received increasing attention for its two attractive advantages: 1) Promising performance at a high sparsity. 2) Significant speedups on NVIDIA A100 GPUs. Recent studies require an expensive pre-training phase or a heavy dense-gradient computation. In this paper, we show that the N:M learning can be naturally characterized as a combinatorial problem which searches for the best combination candidate within a finite collection. Motivated by this characteristic, we solve N:M sparsity in an efficient divide-and-conquer manner. First, we divide the weight vector into $C_{ ext{M}}^{ ext{N}}$ combination subsets of a fixed size N. Then, we conquer the combinatorial problem by assigning each combination a learnable score that is jointly optimized with its associate weights. We prove that the introduced scoring mechanism can well model the relative importance between combination subsets. And by gradually removing low-scored subsets, N:M fine-grained sparsity can be efficiently optimized during the normal training phase. Comprehensive experiments demonstrate that our learning best combination (LBC) performs consistently better than off-the-shelf N:M sparsity methods across various networks. Our project is released at \url{https://github.com/zyxxmu/LBC}.
연구 동기 및 목표
- GPU에서 하드웨어 가속 잠재력을 보존하는 효율적인 N:M 희소성을 제시한다.
- 유한한 조합 문제로 N:M 희소성을 모델링하고 그 해를 분할-정복한다.
- 최적의 N개(총 M개 중)를 선택하는 가중치 조합을 식별하기 위한 학습 가능한 점수 메커니즘을 도입한다.
- 가지치기 과정에서 Dense-gradient 계산 없이 엔드투엔드 학습을 가능하게 한다.
- LBC가 CNN과 ViT 모델 전반에서 기존 N:M 희소성 방법보다 우수함을 보여준다.
제안 방법
- 각 가중치 그룹 W^l_g,: (크기 M)를 모든 C(M,N)개의 N-크기 조합으로 나눈다.
- 각 조합 Θ^l_g,i에 학습 가능한 점수 S^l_g,i를 할당하고 네트워크 가중치와 함께 공동 최적화한다.
- 학습 에폭에 걸쳐 점수가 낮은 조합을 점진적으로 제거하는 가지치기 스케줄을 사용하여 마지막에 최고의 조합을 남긴다.
- N:M 희소성을 구현하기 위해 순전파에서 Z^l = Z^{l-1} ⊗ (B^l ⊙ W^l)로 W^l에 이진 마스크 B^l을 적용한다.
- 각 조합의 중요도를 반영하기 위해 straight-through estimator(STE) 기울기로 S^l_g,i를 업데이트한다.
- 학습된 점수가 가중치를 제거할 때의 손실 변화에 근사하고 가지치기를 안내한다는 것을 분석적으로 정당화한다.
- 밀집 그래디언트 계산을 피하면서 강력한 희소성 성능을 달성하는 엔드투엔드 학습 효율성을 입증한다.
실험 결과
연구 질문
- RQ1무거운 사전 학습이나 밀집 그래디언트 계산 없이도 N:M 희소성을 처음부터 효과적으로 학습할 수 있는가?
- RQ2학습 가능한 조합 점수가 N:M 희소성을 위한 가중치 부분집합의 상대적 중요성을 정확하게 반영할 수 있는가?
- RQ3점진적 가지치기를 포함한 분할-정복 방식이 기존의 N:M 방법들보다 더 높은 정확도와 효율성을 보이는가?
- RQ4표준 벤치마크(ImageNet, COCO)에서 CNN과 비전 트랜스포머에 걸친 LBC의 성능은 최신 희소성 방법과 비교해 어떤가?
- RQ5학습 스케줄(t_i, t_f)이 학습 비용과 정확도 간의 트레이드오프에 미치는 영향은 무엇인가?
주요 결과
- LBC는 ResNet-50과 DeiT에서 2:4, 2:8 및 1:16 희소성 패턴에서 경쟁력 있거나 더 우수한 Top-1 정확도를 달성하며, 일부 기준선보다 더 낮은 학습 비용을 보인다.
- ImageNet의 ResNet-50에서 LBC는 2:4 희소성으로 120개의 학습 에포크에서 77.2% Top-1를 달성하며 ASP와 SR-STE를 능가한다.
- LBC는 ResNet-50에서 1:16 희소성으로 71.8% Top-1를 달성하며 유사한 희소성에서 STR보다 정확도와 실효성 측면에서 우수하다.
- 객체 검출 및 인스턴스 분할(COCO)에서 LBC는 SR-STE에 비해 2:4 및 2:8 패턴에서 일관되게 mAP/박스 및 마스크 결과를 개선한다.
- DeiT-small에서 LBC는 2:4 희소성으로 80.1% Top-1를 달성하며 SR-STE보다 0.5포인트 더 높고 더 적은 학습 FLOP를 사용한다.
- 높은 희소성에서 비구조적 희소성 방법과 비교할 때 LBC는 NVIDIA Ampere 하드웨어에서 실용적인 압축 및 가속을 더 잘 제공하면서 정확도를 유지하거나 향상시킨다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.