Skip to main content
QUICK REVIEW

[논문 리뷰] Loss-aware Weight Quantization of Deep Networks

Lu Hou, James T. Kwok|arXiv (Cornell University)|2018. 02. 23.
Sparse and Compressive Sensing Techniques참고 문헌 29인용 수 57
한 줄 요약

본 논문은 Loss-Aware Ternarization(LAT) 및 다비트 양자화 확장을 도입하여 가중치 양자화 중 손실을 직접 최적화하고, 양자화된 네트워크의 정확도를 최신 방법과 비교해 향상시킨다. 대각 해essian 전처치가 포함된 근접 뉴턴 접근법을 사용하고 층 간에 하나 또는 두 개의 스케일링 매개변수 및 다양한 비트 폭을 지원한다.

ABSTRACT

The huge size of deep networks hinders their use in small computing devices. In this paper, we consider compressing the network by weight quantization. We extend a recently proposed loss-aware weight binarization scheme to ternarization, with possibly different scaling parameters for the positive and negative weights, and m-bit (where m > 2) quantization. Experiments on feedforward and recurrent neural networks show that the proposed scheme outperforms state-of-the-art weight quantization algorithms, and is as accurate (or even more accurate) than the full-precision network.

연구 동기 및 목표

  • 자원 제약 기기에 배포하기 위한 딥 네트워크 크기 축소를 동기 부여한다.
  • 가중치를 양자화할 때 손실을 직접 최소화하는 손실 인식 양자화 프레임워크를 개발한다.
  • 레이어별 스케일링이 있는 3진화와 m비트 양자화로 손실 인식 양자화를 확장한다.
  • 피드포워드 및 순환 신경망에서 기존 양자화 방법과 비교하여 우수한 정확도와 수렴을 보임을 입증한다.

제안 방법

  • 가중치 3진화를 hat{w} = alpha b를 만족하는 제약 최적화 문제로 정식화한다. 여기서 alpha > 0이고 b ∈ {-1,0,1}^n.
  • 다음의 이차 도함수 대각 행렬 D를 가진 근사 뉴턴(proximal Newton)을 통해 부분문제를 해결하여 두 단계 프로세스로 w^t와 hat{w}^t를 얻는다: (i) preconditioned gradient 스텝으로 w^t를 계산하고, (ii) hat{w}^t로의 투영/양자화 스텝을 수행한다.
  • 3진화에서 alpha^t에 대한 정확해석 해와 근사해를 도출하되, 폐쇄형 해(알고리즘 1)와 빠른 교대 절차(알고리즘 2)를 사용한다.
  • 프레임워크를 확장한다: (a) 양의/음의 가중치에 대한 두 개의 스케일링 매개변수, (b) Q로의 투영을 통한 m비트 양자화, (c) 순환 신경망에의 적용 가능성.

실험 결과

연구 질문

  • RQ1손실 인식 최적화가 휴리스틱 임계값을 넘어 가중치 양자화의 품질을 향상시킬 수 있는가?
  • RQ2대각 해essian 전처리와 함께 LAT가 피드포워드 및 순환 모델 전반에서 기존 이진화/3진화 방법보다 더 높은 정확도와 수렴성을 제공하는가?
  • RQ3다중 비트 및 두 스케일링 매개변수 확장이 단일 스케일, 3진 방법에 비해 정확도 및 학습 동역학에 어떤 차이를 보이는가?
  • RQ4제안된 방법이 양자화 네트워크의 학습에 필요한 계산 비용 면에서 실용적인가?

주요 결과

  • LAT 및 그 변형들이 MNIST, CIFAR-10, CIFAR-100, SVHN 데이터셋에서 피드포워드 네트워크에 대해 여러 최첨단 가중치 양자화 방법을 능가한다.
  • CIFAR-10에서 LATa는 전체 정밀도 네트워크와 유사한 성능을 달성하며 LATe/LAT2 변형이 데이터셋 전반에서 강력한 결과를 보인다.
  • LSTM 언어 모델링 과제(War and Peace, Linux Kernel, Penn Treebank)에서 LATe 및 LATa가 경쟁적인 3진화 방식보다 우월하며 종종 전체 정밀도 베이스라인을 상회한다.
  • 로그상 3비트 양자화(LAQ3(log))가 일반적으로 3비트 양자화 중 최상의 결과를 내고, 두 스케일링 변형(LAT2e, LAT2a)이 몇몇 경우에서 단일 스케일 TTQ보다 개선된다.
  • 양자화된 네트워크는 종종 전체 정밀도 모델과 대등하거나 능가하며, 양자화가 유익한 정규화 효과를 제공하고 성능을 유지하거나 향상시킬 수 있음을 시사한다。

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.