QUICK REVIEW

[논문 리뷰] Dynamic Network Surgery for Efficient DNNs

Yiwen Guo, Anbang Yao|arXiv (Cornell University)|2016. 08. 16.

Advanced Neural Network Applications참고 문헌 16인용 수 140

한 줄 요약

dynamic network surgery를 도입하여 훈련 중 연결을 가지치고 접합함으로써 DNN을 효율적으로 압축하고 정확도 손실 없이 성능 저하를 방지하며, 기존 가지치기 방법보다 우수하게 동작한다.

ABSTRACT

Deep learning has become a ubiquitous technology to improve machine intelligence. However, most of the existing deep models are structurally very complex, making them difficult to be deployed on the mobile platforms with limited computational power. In this paper, we propose a novel network compression method called dynamic network surgery, which can remarkably reduce the network complexity by making on-the-fly connection pruning. Unlike the previous methods which accomplish this task in a greedy way, we properly incorporate connection splicing into the whole process to avoid incorrect pruning and make it as a continual network maintenance. The effectiveness of our method is proved with experiments. Without any accuracy loss, our method can efficiently compress the number of parameters in LeNet-5 and AlexNet by a factor of $\bm{108} imes$ and $\bm{17.7} imes$ respectively, proving that it outperforms the recent pruning method by considerable margins. Code and some models are available at https://github.com/yiwenguo/Dynamic-Network-Surgery.

연구 동기 및 목표

모바일/배포 가능 사용을 위한 심층 신경망 압축의 필요성에 대한 동기를 부여합니다.
네트워크 구조를 지속적으로 유지하기 위한 동적 가지치기 및 접합 프레임워크를 제안합니다.
모델 크기를 크게 줄이되 정확도를 보존하거나 향상시키고자 합니다.
LeNet 변형 및 AlexNet에서 성능 손실 없이 상당한 압축 이점을 보여줍니다.

제안 방법

네트워크를 가중치 행렬 Wk와 활성 연결을 나타내는 이진 마스크 Tk로 표현합니다.
L(Wk ⊙ Tk)에서 SGD를 이용한 Wk와 Tk의 교대 업데이트로 제약된 가지치기 문제를 해결합니다.
크기 임계값 (a_k 및 b_k)에 따라 어떤 연결을 가지치고 보유하며 접합할지 결정하기 위해 식별 함수 hk(·)를 사용합니다.
중요해지면 이전에 가지치기된 연결을 다시 활성화하기 위해 접합을 도입합니다.
Wk의 업데이트 규칙은 Wk ← Wk − β ∂L(Wk ⊙ Tk)/∂Wk로, 마스킹된 가중치를 통해 부분 역전파를 가능하게 합니다.
수렴 안정화를 위해 반복(iter)마다 확률 σ(iter)로 가지치기/접합 업데이트를 확률적으로 제어합니다.
소실된 경사와 학습 비효율성을 완화하기 위해 합성곱 계층과 완전 연결 계층에서 가지치기/접합을 각각 다룹니다.

실험 결과

연구 질문

RQ1온더플라이 접합을 포함한 동적 가지치기가 정확도 손실 없이 기존 가지치기 방법보다 더 높은 압축을 달성할 수 있는가?
RQ2제안된 방법이 Han et al.의 가지치기와 비교하여 표준 네트워크(LeNet-5, LeNet-300-100, AlexNet)에서 어떻게 수행되는가?
RQ3가지치기와 접합을 안내하기 위한 매개변수 중요도 판단 기준은 무엇이 효과적인가?

주요 결과

모델	Top-1 오차	매개변수 수	반복 수	압축
LeNet-5 reference	0.91%	431K	10K
LeNet-5 pruned	0.91%	4.0K	16K	108×
LeNet-300-100 reference	2.28%	267K	10K
LeNet-300-100 pruned	1.99%	4.8K	25K	56×
AlexNet reference	43.42%	61M	450K
AlexNet pruned	43.09%	3.45M	700K	17.7×

동적 네트워크 서지는 표준 모델에서 정확도 손실 없이 상당한 압축을 달성합니다(예: LeNet-5는 108× 감소, AlexNet은 17.7× 감소).
방법은 공격적인 가지치기에도 불구하고 정확도를 보존하거나 약간 향상시키는 경향이 있습니다.
레이어별 비교에서 이 접근법이 AlexNet의 레이어 전반에 걸쳐 Han et al.의 가지치기보다 일관되게 우수함을 보입니다.
동급 가지치기 방법보다 훨씬 적은 학습 반복이 필요합니다(예: AlexNet의 경우 700K vs. 960K+).
압축은 가지치기와 접합을 통해 동적으로 업데이트되는 마스크의 소수 매개변수를 유지함으로써 달성됩니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.