[논문 리뷰] Searching for Low-Bit Weights in Quantized Neural Networks
이 논문은 비미분 가능 양자화의 gradient 추정 없이 엔드투엔드 최적화를 가능하게 하는, 비트 수가 낮은 가중치를 이산 값에 대한 확률 분포로 표현하여 학습하는 미분가능 가중치 검색 방법을 제안한다.
Quantized neural networks with low-bit weights and activations are attractive for developing AI accelerators. However, the quantization functions used in most conventional quantization methods are non-differentiable, which increases the optimization difficulty of quantized networks. Compared with full-precision parameters (i.e., 32-bit floating numbers), low-bit values are selected from a much smaller set. For example, there are only 16 possibilities in 4-bit space. Thus, we present to regard the discrete weights in an arbitrary quantized neural network as searchable variables, and utilize a differential method to search them accurately. In particular, each weight is represented as a probability distribution over the discrete value set. The probabilities are optimized during training and the values with the highest probability are selected to establish the desired quantized network. Experimental results on benchmarks demonstrate that the proposed method is able to produce quantized neural networks with higher performance over the state-of-the-art methods on both image classification and super-resolution tasks.
연구 동기 및 목표
- 메모리 및 계산 효율성을 위해 저비트 가중치를 가지는 양자화 네트워크를 동기화한다.
- 비미분 가능 양자화 함수로 인한 최적화 과제를 다룬다.
- 엔드 투 엔드로 양자화된 가중치를 학습하기 위한 미분가능한 가중치 검색 프레임워크를 제안한다.
- 학습(연속)과 추론(이산) 간의 양자화 격차를 줄인다.
- 이미지 분류 및 초해상도 벤치마크에서 정확도 향상을 시연한다.
제안 방법
- 각 가중치를 저비트 값들의 집합에 대한 확률 분포로 표현한다.
- 값들에 대한 소프트맥스를 사용하는 연속 보조 텐서 A를 사용해 분포를 학습한다(식 5).
- 학습 시에는 W_c = sum_i P_i v_i (식 6)으로 기대 연속 가중치 W_c를 계산하고, 추론 시에는 확률이 최대인 값을 선택한다(식 7).
- 그래디언트는 A에 대해서만 계산되며, 양자화 함수에 대한 그래디언트 추정을 피한다.
- 분포를 샤프하게 만들고 양자화 격차를 줄이기 위해 점진적으로 감소하는 온도를 적용한다(온도 한계 정리).
- 연속 학습 출력과 이산 추론 출력 사이의 통계 값을 정렬하기 위해 State Batch Normalization(SBN)을 도입한다.
실험 결과
연구 질문
- RQ1비계단 저비트 가중치 값에 대한 미분가능한 완화가 STE 기반의 그래디언트 추정 없이 양자화 네트워크를 엔드 투 엔드로 최적화할 수 있는가?
- RQ2온도를 점진적으로 낮추고 상태 배치 정규화(SBN)를 사용하면 양자화 격차를 줄이고 분류 및 초해상도 작업에서 정확도를 향상시킬 수 있는가?
- RQ3제안된 SLB 방법이 다양한 비트 폭과 아키텍처에서 최첨단 양자화 방법과 비교하여 어떤 성능을 보이는가?
- RQ4학습된 가중치 분포가 이미지 분류용 CNN과 초해상도 모델에서 모두 효과적인가?
주요 결과
- ResNet 및 VGG-Small 백본을 사용한 CIFAR-10에서 다수의 비트 폭 설정에 대해 여러 최첨단 양자화 방법보다 더 높은 정확도를 달성한다.
- ImageNet(ILSVRC2012)에서 ResNet18과 함께 1비트 가중치 및 활성화로 SLB가 Top-1 61.3% 및 Top-5 83.1%를 달성하며 여러 베이스라인을 능가한다.
- SLB는 1/1, 1/2, 1/4, 1/8, 1/32 비트 구성에서 일관되게 결과를 개선하고 2/2, 2/4, 2/8, 2/32, 4/4, 4/8, 4/32로 확장된다.
- 초해상도 실험에서 SLB가 스케일 팩터 2 및 3에서 DoReFa보다 더 높은 PSNR을 달성하고 전체 정밀도에 더 가까운 결과를 보인다.
- 어블레이션은 State Batch Normalization이 이산 가중치를 사용할 때 성능 유지에 기여함을 보인다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.