Skip to main content
QUICK REVIEW

[논문 리뷰] Same, Same But Different - Recovering Neural Network Quantization Error Through Weight Factorization

Eldad Meller, Alexander M. Finkel’stein|arXiv (Cornell University)|2019. 02. 05.
Advanced Neural Network Applications인용 수 28
한 줄 요약

이 논문은 신경망 양자화 오차를 줄이기 위해 반비례 가중치 인수분해를 활용하는 사전 처리 방법을 제안한다. 이 방법은 층 간 채널의 동적 범위를 균일화함으로써 양자화에 의한 성능 저하를 감소시킨다. 낮은 활성도를 보이는 채널을 증폭하고 다음 층에서 역수 스케일링을 통해 보상함으로써, 양자화에 의한 성능 저하를 크게 줄였다. 이는 양자화 인식 훈련이나 재훈련 없이도 8비트 양자화에서 MobileNets에서 최고 성능을 달성한다.

ABSTRACT

Quantization of neural networks has become common practice, driven by the need for efficient implementations of deep neural networks on embedded devices. In this paper, we exploit an oft-overlooked degree of freedom in most networks - for a given layer, individual output channels can be scaled by any factor provided that the corresponding weights of the next layer are inversely scaled. Therefore, a given network has many factorizations which change the weights of the network without changing its function. We present a conceptually simple and easy to implement method that uses this property and show that proper factorizations significantly decrease the degradation caused by quantization. We show improvement on a wide variety of networks and achieve state-of-the-art degradation results for MobileNets. While our focus is on quantization, this type of factorization is applicable to other domains such as network-pruning, neural nets regularization and network interpretability.

연구 동기 및 목표

  • 엣지 디바이스에 구현된 딥 네트워크에서 저정밀도 양자화로 인한 성능 저하 문제를 해결하기 위해.
  • 신경망 가중치 인수분해에서 간과된 자유도를 활용하기 위해 — 즉, 네트워크 기능을 변경하지 않은 채로 채널 간 가중치 재스케일링이 가능하다는 점을 활용하기 위해.
  • 각 층 내 출력 채널의 동적 범위를 균일화하여 양자화 노이즈를 줄이고, 주로 영향을 미치는 채널이 노이즈 분포에 미치는 영향을 최소화하기 위해.
  • 재훈련이나 원본 데이터셋에 대한 접근 없이도 빠르고 효율적인 양자화 모델 배포를 가능하게 하기 위해.

제안 방법

  • 반비례 가중치 인수분해를 제안한다: 어떤 층에 대해서도 출력 채널을 요인 C로 스케일링하고, 다음 층의 해당 가중치를 역수로 스케일링함으로써 네트워크 기능을 유지한다.
  • 낮은 활성도 채널을 주도적인(가장 높은 활성도를 보이는) 채널의 동적 범위와 일치시키기 위해, 탐욕적인 층 단위 균일화 알고리즘을 도입한다.
  • 두 단계의 균일화 과정을 활용한다: 첫 번째 단계에서는 동적 범위가 주도 채널 이하인 채널을 증폭하고, 두 번째 단계에서는 최대 30%까지 감쇠를 허용하여 정밀도가 높은 성능에 영향을 주지 않도록 한다.
  • 양자화로 인한 가중치 분포 이탈로 인한 분포 이탈을 보정하기 위해, 1000장의 레이블이 없는 이미지만을 사용하여 지식 증착을 수행한다.
  • 표준 8비트 정수 양자화와 호환성을 유지하면서 채널 별 스케일링 전략을 적용하여 채널 별 양자화의 하드웨어 및 저장소 오버헤드를 피한다.
  • 양자화 이전의 사전 처리 단계로 균일화를 통합함으로써, 기존의 양자화 파ip라인과 호환되며 즉각적인 배포가 가능하다.

실험 결과

연구 질문

  • RQ1재훈련이나 훈련 데이터에 대한 접근 없이도 동일한 가중치 인수분해를 사용하여 양자화로 인한 성능 저하를 줄일 수 있는가?
  • RQ2각 층 내 출력 채널의 동적 범위를 균일화하면 가중치 및 활성화 양자화 노이즈에 대한 강건성이 향상되는가?
  • RQ3탐욕적인 층 단위 균일화 전략은 다양한 네트워크 아키텍처에 걸쳐 양자화 후 정확도 손실을 줄이는 데 얼마나 효과적인가?
  • RQ4균일화가 양자화된 모델, 예를 들어 MobileNet에서 양자화 인식 훈련이나 채널 별 양자화 없이도 최고 성능을 달성할 수 있는가?
  • RQ5가중치 및 활성화 양자화 노이즈가 각 층에 미치는 영향은 무엇이며, 이를 균일화 최적화에 활용할 수 있는가?

주요 결과

  • 단일 단계 균일화로 MobileNet V1-1.0의 8비트 양자화 시 정확도 저하가 7.89%에서 3.2%로 감소했고, 두 단계 균일화로는 1.3%까지 감소했다.
  • MobileNet V2-1.4의 경우, 두 단계 균일화와 바이어스 미세조정을 통해 정확도 저하가 8.06%에서 0.55%로 감소했으며, 최고 성능을 달성했다.
  • ResNet-V1-152와 Inception-V3에서도 각각 0.62%와 0.05%의 저하로 경쟁적인 성능을 달성했으며, 8비트 양자화 조건에서 성능을 유지했다.
  • 이 방법은 기존의 양자화 기법과 완전히 호환되며, 재훈련 없이도 빠른 모델 배포가 가능하다.
  • 단지 1000장의 레이블이 없는 이미지를 사용한 지식 증착이 양자화로 인한 분포 이탈을 효과적으로 보정하여 정밀도가 높은 성능을 유지했다.
  • 채널 별 양자화 오버헤드를 피하면서도, 최소한의 계산 비용으로 기존 방법보다 뛰어난 또는 동등한 성능을 달성했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.