QUICK REVIEW

[논문 리뷰] Up or Down? Adaptive Rounding for Post-Training Quantization

Markus Nagel, Rana Ali Amjad|arXiv (Cornell University)|2020. 04. 22.

Advanced Neural Network Applications참고 문헌 37인용 수 55

한 줄 요약

AdaRound는 데이터에 적응하는 가중치 반올림 방법으로, 미세 조정 없이 최근접 반올림보다 성능을 개선하고, 각 층의 QUBO 형태를 연속 완화를 통해 낮은 라벨 데이터와 함께 사용합니다. 여러 네트워크와 과제에서 새로운 최첨단 성능을 달성합니다.

ABSTRACT

When quantizing neural networks, assigning each floating-point weight to its nearest fixed-point value is the predominant approach. We find that, perhaps surprisingly, this is not the best we can do. In this paper, we propose AdaRound, a better weight-rounding mechanism for post-training quantization that adapts to the data and the task loss. AdaRound is fast, does not require fine-tuning of the network, and only uses a small amount of unlabelled data. We start by theoretically analyzing the rounding problem for a pre-trained neural network. By approximating the task loss with a Taylor series expansion, the rounding task is posed as a quadratic unconstrained binary optimization problem. We simplify this to a layer-wise local loss and propose to optimize this loss with a soft relaxation. AdaRound not only outperforms rounding-to-nearest by a significant margin but also establishes a new state-of-the-art for post-training quantization on several networks and tasks. Without fine-tuning, we can quantize the weights of Resnet18 and Resnet50 to 4 bits while staying within an accuracy loss of 1%.

연구 동기 및 목표

포스트 트레이닝 양자화에서 네트워크의 가중치 반올림이 최근접 반올림에 비해 왜 최적이 아닐 수 있는지 동기 부여 및 분석.
데이터와 작업 손실에 적응하는 이론적으로 근거 있는 효율적 층별 반올림 방법(AdaRound)을 개발하고 미세 조정 없이도 동작하도록 함.
AdaRound의 효과를 여러 네트워크와 과제에서 보여 주며 4비트 가중치로 높은 정확도를 달성.
AdaRound가 기존 포스트 트레이닝 양자화 방법을 능가하고 필요한 unlabeled 데이터가 아주 적어도 된다는 것을 보여줌

제안 방법

작업 손실의 2차 테일러 전개로부터 도출된 per-layer Quadratic Unconstrained Binary Optimization(QUBO) 문제로 가중치 반올림을 형식화합니다.
계층별 최적화와 복잡도 감소를 위해 해시안의 대각 근사를 도입합니다.
연속 완화를 사용한 NP-hard QUBO를 이완하고 이진화를 촉진하는 differentiable regularizer를 도입합니다.
비대칭 재구성 손실 및 활성화 인식화를 사용하여 포스트 양자화 효과를 더 잘 캡처합니다.
데이터 효율적인 최적화(작은 비표지 데이터 세트)와 AdaRound 목적을 사용하여 층별로 최적화하며 Hopfield 스타일의 연속 완화로 해결합니다.

실험 결과

연구 질문

RQ1포스트 트레이닝 양자화 중 가중치 반올림이 데이터 및 작업 손실 상호작용을 고려하는 층별 최적화 문제로 형식화될 수 있는가?
RQ2연속 완화 및 층별 최적화를 사용한 AdaRound가 여러 아키텍처와 비트폭에서 전통적 최근접 반올림을 능가하는가?
RQ3해당 설계 선택들(Hessian 근사화, 로컬 MSE 손실, 비대칭 재구성, 활성화 인식화)이 포스트 트레이닝 양자화 성능에 어떤 영향을 미치는가?
RQ4AdaRound가 경쟁력 있는 정확도를 달성하기 위해 필요한 unlabeled 데이터의 양은 얼마이며, 데이터 도메인이 성능에 영향을 주는가?

주요 결과

Rounding	First layer (Acc %)	All layers (Acc %)
Nearest	52.29	23.99
H^w task loss (cf. (13))	68.62 ± 0.17	N/A
Local MSE loss (cf. (20))	69.39 ± 0.04	65.83 ± 0.14
Cont. relaxation (cf (21))	69.58 ± 0.03	66.56 ± 0.12

AdaRound는 여러 네트워크와 과제에서 포스트 트레이닝 양자화를 위한 최근접 반올림 대비 실질적으로 향상된 성능을 보인다.
대각 Hessian 근사와 로컬 MSE 목표를 사용하면 경쟁력 있는 성능을 달성하고 층별 최적화를 가능하게 한다.
Hopfield에서 영감을 받은 최적화와 명시적 정규화 항을 갖춘 연속 완화가 강력한 성능을 낳고 종종 STE 기반 방법보다 뛰어나다.
비대칭 재구성 및 활성화 인식화 손실 구성은 AdaRound 기본 목표에 추가 이점을 제공한다.
AdaRound는 네트워크(예: ResNet-18/50, MobileNetV2, InceptionV3, DeepLabV3)를 4비트 가중치로 양자화하되 정확도 손실이 거의 없거나 약간의 손실(일부 경우 ~1%)이며, FP32 성능에 근접하기 위해 아주 작은 unlabeled 데이터 세트(256장까지)만 필요하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.