[논문 리뷰] Pruning Neural Networks at Initialization: Why are We Missing the Mark?
본 논문은 초기화 시 SNIP, GraSP, SynFlow 및 크기 가지치기를 평가하여 이들이 무작위 가지치기보다 우수하지만 일반적으로 훈련 후의 크기 가지치기보다 성능이 떨어진다는 것을 보여주며, 가지치 결정은 개별 가중치보다는 계층당 가지치기 비율로 크게 포착된다.
Recent work has explored the possibility of pruning neural networks at initialization. We assess proposals for doing so: SNIP (Lee et al., 2019), GraSP (Wang et al., 2020), SynFlow (Tanaka et al., 2020), and magnitude pruning. Although these methods surpass the trivial baseline of random pruning, they remain below the accuracy of magnitude pruning after training, and we endeavor to understand why. We show that, unlike pruning after training, randomly shuffling the weights these methods prune within each layer or sampling new initial values preserves or improves accuracy. As such, the per-weight pruning decisions made by these methods can be replaced by a per-layer choice of the fraction of weights to prune. This property suggests broader challenges with the underlying pruning heuristics, the desire to prune at initialization, or both.
연구 동기 및 목표
- 가지치기-초기화 방법(SNIP, GraSP, SynFlow)이 크기 가지치기 및 무작위 기준선과 비교하여 얼마나 잘 수행하는지 평가한다.
- 초기화 기반 가지치기의 결정이 가중치별인지 아니면 주로 계층별 밀도 비율인지 이해한다.
- 이 방법들이 실제로 사용하는 정보를 드러내는 제거 실험(a blation)을 식별한다.
- 일반적인 아키텍처와 희소성에서 훈련 후 가지치기와 대등한 정확도를 달성할 수 있는지 초기화 가지치기가 훈련 후 가지치기와 대등한지 확인한다.
제안 방법
- 가중치별 점수와 제거 루틴을 통해 희소도 s를 가지치기로 정의한다.
- 초기화 시점의 한 번 가지치기에서 SNIP, GraSP, SynFlow, 크기 가지치기 및 기준선에 대해 비교한다.
- 가중치 셔플, 재초기화, 반전(inversion)을 통해 민감도를 테스트하는 Ablation을 수행한다.
- CIFAR-10, TinyImageNet, ImageNet에서 CNN/ResNet에 대해 훈련 후 가지치기가 전체 정확도와 일치하는 희소도에서 초기화 시점 가지치기를 평가한다.
- 초기화 이후에 가지치기를 확장하여 학습 후 가지치기를 수행하고 재학습하는 방식으로 분석을 확장한다.
실험 결과
연구 질문
- RQ1초기화 시 SNIP, GraSP, SynFlow 및 크기 가지치기가 표준 네트워크에서 훈련 이후의 무작위 가지치기 및 크기 가지치기와 비교해 얼마나 다른가?
- RQ2초기화 시 가지치기 결정이 가중치별 선택에 민감한가 아니면 주로 계층별 희소성 비율에 의해 좌우되는가?
- RQ3셔플(Shuffle), 재초기화(Reinitialization), 반전(Inversion) 등의 Ablation이 초기화 시 가지치기 방법과 훈련 후 가지치기 간의 근본적인 차이를 드러내는가?
- RQ4학습 중후반에 가지치기를 적용하거나 다른 신호를 사용하여 초기화 가지치기가 훈련 후 가지치기와 유사한 정확도를 달성할 수 있는가?
주요 결과
- 모든 초기화 시 가지치기 방법은 일치하는 희소도에서 무작위 가지치기보다 성능이 우수하며 네트워크별로 단일 최적 방법은 존재하지 않는다.
- 훈련 후 크기 가지치기가 일반적으로 더 높은 정확도와 더 희소한 매칭 희소도에서 초기화 시 가지치기보다 성능이 높다.
- SNIP, GraSP, SynFlow 및 초기화 시 가지치기의 결정은 대부분 계층별 가지치기 비율로 포착되며, 계층 내에서의 셔플링은 성능을 유지한다.
- 초기화를 재초기화하거나 가지치지 않은 가중치를 셔플링하는 것이 초기화 시 가지치기 성능에 해를 주지 않는 반면, 훈련 후 가지치기 방식에서는 그렇지 않다.
- SynFlow는 특정 극단적인 희소도에서 뉴런 붕괴 현상을 보이며 전체 뉴런을 더 공격적으로 가지치기도 한다.
- 초기화 직후 가지치기의 경우 이 방법들의 정확도 향상 속도가 훈련 후의 가지치기에 비해 느리며, 초기화 가지치기의 내재된 한계를 시사한다. LTR(마지막으로 학습) 기준선으로 가지치기를 수행하면 초기 방법보다 우수할 수 있다.
- 이 방법들(SNIP, SynFlow, 크기 가지치기)으로 학습 중 후반에 가지치기를 수행하면 정확도가 향상되지만 가장 극단적인 희소도에서 여전히 LTR보다 뒤처지며, 초기화 가지치기의 더 넓은 도전과제를 시사한다.]
- table_headers: []
- table_rows: []}]} 과제: Korean translation preserved formatting as requested. Continuous. Note: The end shows extra stray text
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.