Skip to main content
QUICK REVIEW

[논문 리뷰] The Unreasonable Effectiveness of Random Pruning: Return of the Most Naive Baseline for Sparse Training

Shiwei Liu, Tianlong Chen|University of Twente Research Information|2022. 02. 05.
Adversarial Robustness in Machine Learning인용 수 33
한 줄 요약

무작위로 가지치기된 서브네트워크가 처음부터 학습될 때 밀집 네트워크의 성능과 맞먹거나 이를 능가할 수 있으며, 특히 대형 모델에서 그렇고, OoD 탐지, 불확실성 추정, 그리고 적대적 강건성에서도 개선을 보일 수 있다.

ABSTRACT

Random pruning is arguably the most naive way to attain sparsity in neural networks, but has been deemed uncompetitive by either post-training pruning or sparse training. In this paper, we focus on sparse training and highlight a perhaps counter-intuitive finding, that random pruning at initialization can be quite powerful for the sparse training of modern neural networks. Without any delicate pruning criteria or carefully pursued sparsity structures, we empirically demonstrate that sparsely training a randomly pruned network from scratch can match the performance of its dense equivalent. There are two key factors that contribute to this revival: (i) the network sizes matter: as the original dense networks grow wider and deeper, the performance of training a randomly pruned sparse network will quickly grow to matching that of its dense equivalent, even at high sparsity ratios; (ii) appropriate layer-wise sparsity ratios can be pre-chosen for sparse training, which shows to be another important performance booster. Simple as it looks, a randomly pruned subnetwork of Wide ResNet-50 can be sparsely trained to outperforming a dense Wide ResNet-50, on ImageNet. We also observed such randomly pruned networks outperform dense counterparts in other favorable aspects, such as out-of-distribution detection, uncertainty estimation, and adversarial robustness. Overall, our results strongly suggest there is larger-than-expected room for sparse training at scale, and the benefits of sparsity might be more universal beyond carefully designed pruning. Our source code can be found at https://github.com/VITA-Group/Random_Pruning.

연구 동기 및 목표

  • 성능을 유지하면서 계산 비용과 모델 크기를 줄이려는 동기.
  • 아키텍처, 데이터셋, 희소도 수준에 걸친 무작위 가지치기의 체계적 평가.
  • 무작위 학습에서의 계층별 사전 정의된 희소성 패턴이 네트워크 크기에 미치는 영향과 초기 학습의 역할 탐구.

제안 방법

  • 여섯 가지 스킴(Uniform, Uniform+, SNIP, GraSP, ERK, ERK+)을 사용해 계층별 희소성 비율을 미리 정의합니다.
  • 마스크를 훈련시키지 않은 채 타깃 희소도로 서브네트워크를 초기화하기 위해 무작위 가지치기를 적용합니다.
  • CIFAR와 ImageNet 전반에 걸쳐 SGD와 표준 학습 레시피로 스파스 서브네트워크를 처음부터 학습합니다.
  • 예측 정확도뿐만 아니라 OoD 탐지, 불확실성 추정, 적대적 강건성도 평가합니다.
  • 무작위 가지치기와 비무작위 가지치기(CN SNIP, GraSP) 간 비교를 통해 그래디언트 흐름을 분석합니다.
  • 적절한 경우 ERK+를 사용해 마지막 층을 밀집하게 만들어 성능을 유지합니다.

실험 결과

연구 질문

  • RQ1처음부터 학습된 무작위 가지치기 서브네트워크가 다양한 아키텍처와 희소도에서 밀집 대안의 성능과 맞먹거나 이를 능가할 수 있는가?
  • RQ2네트워크 크기와 계층별 희소성 패턴이 무작위 가지치기의 효과에 어떤 영향을 미치는가?
  • RQ3무작위 가지치기 네트워크가 밀집 모델에 비해 OoD 탐지, 불확실성 추정, 적대적 강건성에서 이점을 제공하는가?
  • RQ4다양한 사전 정의된 희소성 스킴(ERK, SNIP, GraSP, Uniform, ERK+)이 희소 학습에서 실제로 어떻게 비교되는가?
  • RQ5그래디언트 흐름 분석이 뭐 SNIP의 이점과 ERK 기반 희소성의 이점을 밝혀주는가?

주요 결과

  • 네트워크 크기가 중요하다: 작은 네트워크는 무작위 가지치기로 밀집 성능을 맞추기 어렵지만, 더 큰 네트워크는 고희소도에서도 빠르게 맞추거나 능가한다.
  • 적절한 계층별 희소성 비율은 성능을 높이며, ERK 기반 패턴은 때때로 ImageNet에서 밀집 모델에 필적하거나 이를 초과한다.
  • ERK 기반 가지치기는 데이터 기반 가지치 신호가 없어도 여러 설정에서 SNIP나 GraSP와 같은 복잡한 기준보다 우수한 성능을 낸다.
  • CIFAR-10에서 무작위 가지치기 네트워크는 불확실성 추정이 강하고 OoD 수행이 경쟁력이 있으며 더 큰 모델에서 강건성이 향상된다.
  • ImageNet에서 더 큰 모델은 무작위 가지치기로 30-50% 희소도에서 밀집 수준의 정확도에 도달하며 OoD, 불확실성 및 적대적 강건성에서 주목할 만한 이득이 있다.
  • 무작위 가지치기는 모델 크기가 커질수록 밀집 기준 대비 의미 있는 효율성 증가와 강건성 이점을 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.