QUICK REVIEW

[논문 리뷰] Compression-aware Training of Deep Networks

José M. Alvarez, Mathieu Salzmann|arXiv (Cornell University)|2017. 11. 07.

Advanced Neural Network Applications참고 문헌 34인용 수 54

한 줄 요약

이 논문은 훈련 중 저랭크 정규화를 도입하여 컴팩트한 심층 네트워크를 생성하고, 사후 압축에서 효과적으로 압축될 수 있으며, 최소한의 정확도 손실로 높은 압축을 달성한다.

ABSTRACT

In recent years, great progress has been made in a variety of application domains thanks to the development of increasingly deeper neural networks. Unfortunately, the huge number of units of these networks makes them expensive both computationally and memory-wise. To overcome this, exploiting the fact that deep networks are over-parametrized, several compression strategies have been proposed. These methods, however, typically start from a network that has been trained in a standard manner, without considering such a future compression. In this paper, we propose to explicitly account for compression in the training process. To this end, we introduce a regularizer that encourages the parameter matrix of each layer to have low rank during training. We show that accounting for compression during training allows us to learn much more compact, yet at least as effective, models than state-of-the-art compression techniques.

연구 동기 및 목표

과다 매개변수화와 배포 제약으로 인해 컴팩트한 심층 네트워크의 필요성을 제기한다.
훈련 중 각 계층의 매개변수 행렬이 저랭크를 갖도록 장려하는 정규화 항을 제안한다.
저랭크 정규화와 그룹 희소성을 결합하여 유닛 수준 및 계층 수준의 압축을 강화한다.
압축 인식 학습이 ImageNet 및 ICDAR에서 큰 정확도 손실 없이 더 높은 압축률을 얻는 것을 입증한다.
SVD 기반 분해를 통한 후처리가 추론 비용을 더 감소시키는 방법을 보여준다.

제안 방법

각 계층의 매개변수 행렬에 대한 핵-노름 정규화 항과 감독 손실을 결합한 정규화 목적함수를 사용하여 학습을 공식화한다.
레이어별 근접 업데이트를 최적화하기 위해 근사적 확률적 경사 하강법(proximal SGD) 스킴을 사용한다.
그룹 수준과 개별 매개변수의 희소성을 모두 촉진하기 위해 희소 그룹 라소(sparse group Lasso) 항을 도입한다.
레이어 내의 유닛 중복성을 활용하기 위해 저랭크 정규화와 그룹 희소성을 결합한다.
추론 시 각 계층을 두 개의 더 작은 계층으로 분해하기 위해 SVD 기반의 사후 처리를 적용한다.
정확도와 압축 간의 트레이드오프를 제어하기 위해 특이값의 에너지 기반 절단(e_l)을 허용한다.

실험 결과

연구 질문

RQ1학습 중에 학습된 저랭크 정규화가 사후 처리 시 매우 압축 가능한 네트워크를 만들어낼 수 있는가?
RQ2저랭크 정규화와 그룹 희소성을 결합하는 것이 단독 저랭크보다 압축을 향상시키는가?
RQ3ImageNet 및 ICDAR 데이터셋에서 압축 인식 학습이 정확도와 MACs에 미치는 영향은 무엇인가?
RQ4제안된 방법이 Denton 스타일의 사후 처리 및 기존 희소성 방법과 매개변수 수, MACs, 정확도 측면에서 어떻게 비교되는가?
RQ5훈련 중에 더 빠른 가지치기 및 재로딩 전략과 같은 실용적 이점은 무엇인가?

주요 결과

포스트 프로세싱 기본값과 비교하여 ImageNet 및 ICDAR에서 최소한의 정확도 손실로 상당한 압축을 달성한다.
ResNet-50에서 그룹 희소성을 결합했을 때 20.6%의 압축과 75.0%의 top-1 정확도, 그리고 27%의 압축과 75.2%의 top-1 정확도를 달성한다.
ICDAR의 경우 일부 구성을 통해 매개변수 및 MACs의 감소가 90%를 넘으며 강력한 정확도를 유지한다.
ImageNet의 Dec8-512 모델에서 매개변수 감소가 20% 이상(일부 설정에서 >50%)을 보고하고 베이스라인과 비슷한 정확도를 보인다.
저랭크 정규화만으로도 전체 유닛을 제거하는 경향이 있어 training 중 모델 선택을 제공하는 것으로 추론된다.
에너지 기반 절단(e_l)을 통한 사후 처리가 정확도/효율성의 트레이드오프를 제어하며, 80–100% 에너지 보존에서 MAC 감소가 유리하게 나타난다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.