QUICK REVIEW

[논문 리뷰] Dynamic Model Pruning with Feedback

Tao Lin, Sebastian U. Stich|arXiv (Cornell University)|2020. 06. 12.

Advanced Neural Network Applications참고 문헌 47인용 수 87

한 줄 요약

DPF는 오류 피드백과 함께 동적 가지치기를 도입하여 한 번의 패스로 희소 네트워크를 학습하고, 가지치기 오류를 보정하기 위해 밀집 모델을 함께 유지하며, 희소 모델을 재훈련하지 않고 CIFAR-10과 ImageNet에서 최첨단 성과를 달성합니다.

ABSTRACT

Deep neural networks often have millions of parameters. This can hinder their deployment to low-end devices, not only due to high memory requirements but also because of increased latency at inference. We propose a novel model compression method that generates a sparse trained model without additional overhead: by allowing (i) dynamic allocation of the sparsity pattern and (ii) incorporating feedback signal to reactivate prematurely pruned weights we obtain a performant sparse model in one single training pass (retraining is not needed, but can further improve the performance). We evaluate our method on CIFAR-10 and ImageNet, and show that the obtained sparse models can reach the state-of-the-art performance of dense models. Moreover, their performance surpasses that of models generated by all previously proposed pruning schemes.

연구 동기 및 목표

저사양 장치에서 과도한 재학습 없이 배치를 가능하게 하기 위한 모델 압축의 동기를 부여한다.
가지치기 오류를 보정하기 위해 밀집 모델과 가지치기 모델을 함께 유지하는 동적 가지치기 방법을 개발한다.
CIFAR-10와 ImageNet에서 최첨단 정확도를 가진 희소 네트워크를 얻는다.
제안된 스킴하에서 볼록 및 비볼록 목적함수에 대한 이론적 수렴 분석을 제공한다.

제안 방법

가중치가 가지치된 부분에서 그래디언트를 계산하되 이를 전체 밀집 가중치 벡터에 적용하는 Dynamic Pruning with Feedback (DPF)을 제안한다.
학습 중에 이전에 가지치기된 가중치를 재활성화할 수 있도록 오류 피드백 메커니즘을 사용한다.
모델 가지치기는 w_t에 마스크 m_t를 적용하여 ￨ tilde{w}_t = m_t w_t를 산출하고 업데이트 w_{t+1} = w_t - gamma_t g(m_t ￨w_t)로 수행된다.
e_t = ￨tilde{w}_t - w_t로 두고 w_{t+1} = w_t - gamma_t g(w_t + e_t)와의 등가를 보이며, 에러 피드백 SGD와 연결한다.
매끄러움과 한정된 확률적 그래디언트 가정하에 볼록(강하게 볼록한 경우 포함)과 비볼록 목적함수에 대한 수렴 보장을 제공한다.
마스킹 외에도 양자화 등 같은 delta_t 프레임워크 내에서 다른 압축기에도 분석을 확장한다.

실험 결과

연구 질문

RQ1동적 가지치기와 오류 피드백이 대규모 데이터셋에서 정확도 손실 없이 높은 희소성을 달성할 수 있는가?
RQ2동일한 시점에 밀집 모델을 유지하고 가지치기된 모델에서 계산된 그래디언트를 적용하는 것이 일반화 성능을 향상시키고 초기 가지치기로부터의 회복을 가능하게 하는가?
RQ3표준 최적화 가정 하에서 볼록 및 비볼록 목적함수에 대한 DPF의 수렴 특성은 무엇인가?
RQ4CIFAR-10과 ImageNet과 같은 데이터셋에서 DPF가 기존의 가지치기 스킴(원샷, 점진적, 동적)과 비교하여 어떤 차이를 보이는가?

주요 결과

DPF는 CIFAR-10과 ImageNet에서 이전의 동적 및 정적 가지치기 방법을 능가하는 희소성 인식 가지치기에서 최첨단 성능을 달성한다.
DPF는 대형 모델에서 약 99%에 이르는 높은 희소성을 유지하면서도 실행 가능한 정확도를 유지한다.
이 방법은 학습 중에 가지치기 마스크가 수렴하는 것을 보이며, 끝 무렵에는 변화하는 가중치의 비율이 매우 작다.
로티-티켓 스타일 가지치기와 비교했을 때 DPF는 처음부터 학습을 필요로 하지 않거나 광범위한 파인튜닝 없이도 효과적인 희소 네트워크를 찾고, 특히 매우 높은 희소성 수준에서 우수하게 작동한다.
이론적 결과는 제안된 에러-피드백 가지치기 스킴 하에서 볼록 및 비볼록 목적함수에 대한 비점근 수렴 보장을 제공한다.
실험은 CIFAR-10 및 ImageNet 전반에 걸쳐 SNIP, Incremental pruning, DSR, Sparse Momentum에 비해 일관된 이점을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.