[논문 리뷰] Up or Down? Adaptive Rounding for Post-Training Quantization
AdaRound는 데이터에 적응하는 가중치 반올림 방법으로, 미세 조정 없이 최근접 반올림보다 성능을 개선하고, 각 층의 QUBO 형태를 연속 완화를 통해 낮은 라벨 데이터와 함께 사용합니다. 여러 네트워크와 과제에서 새로운 최첨단 성능을 달성합니다.
When quantizing neural networks, assigning each floating-point weight to its nearest fixed-point value is the predominant approach. We find that, perhaps surprisingly, this is not the best we can do. In this paper, we propose AdaRound, a better weight-rounding mechanism for post-training quantization that adapts to the data and the task loss. AdaRound is fast, does not require fine-tuning of the network, and only uses a small amount of unlabelled data. We start by theoretically analyzing the rounding problem for a pre-trained neural network. By approximating the task loss with a Taylor series expansion, the rounding task is posed as a quadratic unconstrained binary optimization problem. We simplify this to a layer-wise local loss and propose to optimize this loss with a soft relaxation. AdaRound not only outperforms rounding-to-nearest by a significant margin but also establishes a new state-of-the-art for post-training quantization on several networks and tasks. Without fine-tuning, we can quantize the weights of Resnet18 and Resnet50 to 4 bits while staying within an accuracy loss of 1%.
연구 동기 및 목표
- 포스트 트레이닝 양자화에서 네트워크의 가중치 반올림이 최근접 반올림에 비해 왜 최적이 아닐 수 있는지 동기 부여 및 분석.
- 데이터와 작업 손실에 적응하는 이론적으로 근거 있는 효율적 층별 반올림 방법(AdaRound)을 개발하고 미세 조정 없이도 동작하도록 함.
- AdaRound의 효과를 여러 네트워크와 과제에서 보여 주며 4비트 가중치로 높은 정확도를 달성.
- AdaRound가 기존 포스트 트레이닝 양자화 방법을 능가하고 필요한 unlabeled 데이터가 아주 적어도 된다는 것을 보여줌
제안 방법
- 작업 손실의 2차 테일러 전개로부터 도출된 per-layer Quadratic Unconstrained Binary Optimization(QUBO) 문제로 가중치 반올림을 형식화합니다.
- 계층별 최적화와 복잡도 감소를 위해 해시안의 대각 근사를 도입합니다.
- 연속 완화를 사용한 NP-hard QUBO를 이완하고 이진화를 촉진하는 differentiable regularizer를 도입합니다.
- 비대칭 재구성 손실 및 활성화 인식화를 사용하여 포스트 양자화 효과를 더 잘 캡처합니다.
- 데이터 효율적인 최적화(작은 비표지 데이터 세트)와 AdaRound 목적을 사용하여 층별로 최적화하며 Hopfield 스타일의 연속 완화로 해결합니다.
실험 결과
연구 질문
- RQ1포스트 트레이닝 양자화 중 가중치 반올림이 데이터 및 작업 손실 상호작용을 고려하는 층별 최적화 문제로 형식화될 수 있는가?
- RQ2연속 완화 및 층별 최적화를 사용한 AdaRound가 여러 아키텍처와 비트폭에서 전통적 최근접 반올림을 능가하는가?
- RQ3해당 설계 선택들(Hessian 근사화, 로컬 MSE 손실, 비대칭 재구성, 활성화 인식화)이 포스트 트레이닝 양자화 성능에 어떤 영향을 미치는가?
- RQ4AdaRound가 경쟁력 있는 정확도를 달성하기 위해 필요한 unlabeled 데이터의 양은 얼마이며, 데이터 도메인이 성능에 영향을 주는가?
주요 결과
| Rounding | First layer (Acc %) | All layers (Acc %) |
|---|---|---|
| Nearest | 52.29 | 23.99 |
| H^w task loss (cf. (13)) | 68.62 ± 0.17 | N/A |
| Local MSE loss (cf. (20)) | 69.39 ± 0.04 | 65.83 ± 0.14 |
| Cont. relaxation (cf (21)) | 69.58 ± 0.03 | 66.56 ± 0.12 |
- AdaRound는 여러 네트워크와 과제에서 포스트 트레이닝 양자화를 위한 최근접 반올림 대비 실질적으로 향상된 성능을 보인다.
- 대각 Hessian 근사와 로컬 MSE 목표를 사용하면 경쟁력 있는 성능을 달성하고 층별 최적화를 가능하게 한다.
- Hopfield에서 영감을 받은 최적화와 명시적 정규화 항을 갖춘 연속 완화가 강력한 성능을 낳고 종종 STE 기반 방법보다 뛰어나다.
- 비대칭 재구성 및 활성화 인식화 손실 구성은 AdaRound 기본 목표에 추가 이점을 제공한다.
- AdaRound는 네트워크(예: ResNet-18/50, MobileNetV2, InceptionV3, DeepLabV3)를 4비트 가중치로 양자화하되 정확도 손실이 거의 없거나 약간의 손실(일부 경우 ~1%)이며, FP32 성능에 근접하기 위해 아주 작은 unlabeled 데이터 세트(256장까지)만 필요하다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.