[논문 리뷰] ReLeQ: A Reinforcement Learning Approach for Deep Quantization of Neural Networks
tldr: ReLeQ는 proximal policy optimization을 사용하여 DNN의 레이어에 이질적이며 8비트 미만의 양자화를 자동으로 할당하고, 원래 정확도에 근접한 성능과 상당한 하드웨어 속도 증가 및 에너지 감소를 달성합니다.
Deep Neural Networks (DNNs) typically require massive amount of computation resource in inference tasks for computer vision applications. Quantization can significantly reduce DNN computation and storage by decreasing the bitwidth of network encodings. Recent research affirms that carefully selecting the quantization levels for each layer can preserve the accuracy while pushing the bitwidth below eight bits. However, without arduous manual effort, this deep quantization can lead to significant accuracy loss, leaving it in a position of questionable utility. As such, deep quantization opens a large hyper-parameter space (bitwidth of the layers), the exploration of which is a major challenge. We propose a systematic approach to tackle this problem, by automating the process of discovering the quantization levels through an end-to-end deep reinforcement learning framework (ReLeQ). We adapt policy optimization methods to the problem of quantization, and focus on finding the best design decisions in choosing the state and action spaces, network architecture and training framework, as well as the tuning of various hyperparamters. We show how ReLeQ can balance speed and quality, and provide an asymmetric general solution for quantization of a large variety of deep networks (AlexNet, CIFAR-10, LeNet, MobileNet-V1, ResNet-20, SVHN, and VGG-11) that virtually preserves the accuracy (=< 0.3% loss) while minimizing the computation and storage cost. With these DNNs, ReLeQ enables conventional hardware to achieve 2.2x speedup over 8-bit execution. Similarly, a custom DNN accelerator achieves 2.0x speedup and energy reduction compared to 8-bit runs. These encouraging results mark ReLeQ as the initial step towards automating the deep quantization of neural networks.
연구 동기 및 목표
- 정확도를 보존하기 위해 레이어별 양자화 수준(8비트 미만)을 자동으로 발견하는 것을 자동화한다.
- 이질적(레이어별) 비트폭이 전체 네트워크 성능에 어떤 영향을 미치는지 탐구한다.
- 정확도와 계산 및 메모리 비용의 균형을 맞추는 엔드투엔드 RL 프레임워크를 시연한다.
- 일반 CPU와 맞춤형 가속기에서 작동하는 실용적이고 하드웨어에 구애받지 않는 방법을 제시한다.
제안 방법
- 정확도를 양자화 비용보다 우선시하는 다목적 RL 문제로 레이어별 양자화 수준 선택을 형식화한다.
- LSTM 기반 정책과 가치 네트워크를 Proximal Policy Optimization (PPO) 내에서 사용하여 레이어를 따라 순차적으로 비트폭 선택을 학습한다.
- 정적 레이어 특성과 현재 비트폭 및 상대 정확도와 같은 동적 지표를 포함하는 상태 임베딩을 정의한다.
- 정확도 손실을 크게 벌하고 비트레이트 감소를 장려하는 비대칭 보상 설계를 적용한다(상태 양자화).
- 전체 정밀도 모델에서 시작하여 네트워크 깊이에 따라 짧거나 긴 재학습을 수행해 양자화된 성능을 평가한다.
- WRPN-스타일의 미드-트레드 양자화를 사용하여 가중치를 양자화하고 레이어당 세밀한 단위로 비트폭을 평가한다.
실험 결과
연구 질문
- RQ1RL 에이전트가 정확도를 보존하고 계산 및 저장 공간을 줄이면서 이질적인 레이어별 비트폭을 자율적으로 발견할 수 있는가?
- RQ2레이어 수준의 비트폭 결정이 레이어 간에 어떻게 상호 작용하는가, 그리고 RL 프레임워크가 이 상호 작용을 포착할 수 있는가?
- RQ3어떤 보상 설계가 에이전트를 파레토 최적 양자화 패턴으로 수렴시키는 데 가장 잘 작동하는가?
- RQ4발견된 양자화 패턴으로 달성할 수 있는 하드웨어 및 소프트웨어 성능 향상(속도 증가, 에너지 감소)은 무엇인가?
주요 결과
- ReLeQ는 AlexNet, LeNet, MobileNet, ResNet-20, VGG-11 등 다양한 네트워크에서 정확도 손실 ≤ 0.3%의 sub-8비트 레이어당 양자화를 달성한다.
- ReLeQ가 생성하는 평균 비트폭은 네트워크에 따라 다르며(예: MobileNet 6.43 비트; ResNet-20 2.81 비트), 레이어 간 이질성을 보여준다.
- 일반 하드웨어(TVM on CPU)에서 ReLeQ는 8비트 실행 대비 약 2.2× 속도 향상을 보이며; 맞춤형 Stripes 가속기에서는 8비트 기준 대비 약 2.0× 속도 증가 및 약 2.0× 에너지 감소를 보인다.
- ADMM 기반 양자화에 비해 테스트 시나리오 전반에서 더 높은 성능 및 에너지 이점을 제공한다.
- 보상 설계가 수렴 속도와 최종 정확도에 큰 영향을 미치며, 제안된 비대칭 보상은 더 빠른 수렴과 더 나은 상대 정확도를 달성한다.
- 여러 네트워크에 대한 파레토 프런티어 분석에서 ReLeQ가 프런티어의 바람직한 영역에 해를 주지 않는 해를 찾아 회복 가능한 정확도에 가깝다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.