QUICK REVIEW

[논문 리뷰] The State of Sparsity in Deep Neural Networks

Trevor Gale, Erich Elsen|arXiv (Cornell University)|2019. 02. 25.

Machine Learning and Data Classification참고 문헌 31인용 수 439

한 줄 요약

이 논문은 세 가지 희소성 유도 방법을 Transformer(WMT 2014 En-De)와 ResNet-50(ImageNet)에서 평가하고, 크기 기반 가지치기가 종종 복잡한 방법을 상회하거나 동등한 성능을 보이며, ResNet-50에 대해 크기 기반 가지치기로 새로운 희소성-정확도 벤치마크를 설정한다.

ABSTRACT

We rigorously evaluate three state-of-the-art techniques for inducing sparsity in deep neural networks on two large-scale learning tasks: Transformer trained on WMT 2014 English-to-German, and ResNet-50 trained on ImageNet. Across thousands of experiments, we demonstrate that complex techniques (Molchanov et al., 2017; Louizos et al., 2017b) shown to yield high compression rates on smaller datasets perform inconsistently, and that simple magnitude pruning approaches achieve comparable or better results. Additionally, we replicate the experiments performed by (Frankle & Carbin, 2018) and (Liu et al., 2018) at scale and show that unstructured sparse architectures learned through pruning cannot be trained from scratch to the same test set performance as a model trained with joint sparsification and optimization. Together, these results highlight the need for large-scale benchmarks in the field of model compression. We open-source our code, top performing model checkpoints, and results of all hyperparameter configurations to establish rigorous baselines for future work on compression and sparsification.

연구 동기 및 목표

대규모 모델에서 변분 드롭아웃, l0 규제, 그리고 크기 기반 가지치기의 효과성을 평가한다.
Transformer와 ResNet-50 간의 희소성-정확도 트레이드오프를 비교한다.
가지치기로 유도된 희소성이 대규모에서 처음부터 학습될 수 있는지(로터리 티켓 가설) 조사한다.
오픈소스 코드, 체크포인트, 하이퍼파라미터 결과를 베이스라인으로 제공한다.

제안 방법

Transformer(WMT 2014 En-De)와 ResNet-50(ImageNet)에서 세 가지 희소성 기법(변분 드롭아웃, l0 규제, 크기 기반 가지치기)을 평가한다.
하한 비교를 위한 무작위 가지치기 베이스라인을 포함한다.
층별 희소성 분포를 분석해 비균일한 희소성 패턴을 이해한다.
학습 가능한 희소 아키텍처로의 처음 학습(로터리 티켓) 및 scratch 실험을 재현하여 학습 여부를 테스트한다.

실험 결과

연구 질문

RQ1복잡한 희소성 기법이 대규모 작업에서 크기 pruning보다 우수한가?
RQ2레이어별 희소성 분포가 압축-정확도 트레이드오프에 어떤 영향을 미치는가?
RQ3가지치기로 학습된 희소 아키텍처를 처음부터 훈련시켜 공동으로 학습된 희소 모델과 일치시킬 수 있는가?
RQ4희소성이 학습 시간과 자원 사용에 미치는 영향은?
RQ5확대에서 Transformer와 ResNet-50 간 결과가 일관되는가?

주요 결과

고희소도에서 크기 기반 가지치기가 더 복잡한 희소성 기법과 비교해 동등하거나 더 나은 결과를 낸다.
l0 규제는 Transformer에서 잘 작동하지만 ResNet-50에서는 그렇지 않다.
변분 드롭아웃은 높은 희소성을 유지하면서도 정확도가 좋지만 더 많은 메모리가 필요하고 일부 희소도에서 성능이 떨어진다.
ResNet-50에 대해 크기 기반 가지치기로 새로운 희소성-정확도 트레이드오를 달성한다.
가지치기로 학습된 비구조적 희소 아키텍처는 대규모에서 공동으로 학습된 희소 모델과 일치하도록 처음부터 학습될 수 없다.
오픈소스 코드, 체크포인트, 하이퍼파라미터가 Baselines로 제공된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.