[논문 리뷰] Accurate and Compact Convolutional Neural Networks with Trained Binarization
이 논문은 가중치와 활성화에 대해 학습 가능한 스케일링 인자를 도입하고, 고차수 및 긴 尾수 도함수 근사법을 사용하며, 스케일링 인자에 직접 L2 정규화를 적용하여 정확도와 컴팩트함을 향상시키는 학습 가능한 이진화 방법을 제안한다. 이 방법은 ResNet-18을 사용해 CIFAR-10에서 92.3%의 top-1 정확도와 ImageNet에서 54.2%의 정확도를 달성하여 이전의 이진 신경망을 초월한다.
Although convolutional neural networks (CNNs) are now widely used in various computer vision applications, its huge resource demanding on parameter storage and computation makes the deployment on mobile and embedded devices difficult. Recently, binary convolutional neural networks are explored to help alleviate this issue by quantizing both weights and activations with only 1 single bit. However, there may exist a noticeable accuracy degradation when compared with full-precision models. In this paper, we propose an improved training approach towards compact binary CNNs with higher accuracy. Trainable scaling factors for both weights and activations are introduced to increase the value range. These scaling factors will be trained jointly with other parameters via backpropagation. Besides, a specific training algorithm is developed including tight approximation for derivative of discontinuous binarization function and $L_2$ regularization acting on weight scaling factors. With these improvements, the binary CNN achieves 92.3% accuracy on CIFAR-10 with VGG-Small network. On ImageNet, our method also obtains 46.1% top-1 accuracy with AlexNet and 54.2% with Resnet-18 surpassing previous works.
연구 동기 및 목표
- 가중치와 활성화의 극단적인 1비트 양자화로 인한 이진 합성곱 신경망(BNNs)의 정확도 저하 문제를 해결한다.
- 모델의 컴팩트함과 추론 속도를 향상시키기 위해 하드웨어 우수한 이진 연산을 가능하게 하면서도 높은 성능를 유지한다.
- XNOR-Net과 같은 이전 연구에서 제안한 고정된 스케일링 인자에 한계가 있음을 고려해, 가중치와 활성화 양쪽에 대해 학습 가능한 스케일링 인자를 도입한다.
- 가중치 스케일링 인자에 직접 L2 정규화를 적용하여 학습 안정성과 일반화 성능을 향상시킨다.
- 불연속적인 이진화 함수를 통해 효과적인 역전파를 가능하게 하는 실용적인 학습 알고리즘을 개발한다.
제안 방법
- 이진 필터의 효과적 범위를 고정된 평균 기반 스케일링을 초월하기 위해 네트워크 가중치와 활성화에 모두 학습 가능한 스케일링 인자를 도입한다.
- 가중치 이진화 함수의 도함수에 대해 고차수 근사법을 제안하고, 활성화 이진화 함수의 도함수에 대해 긴 꼬리 근사법을 제안하여 날카운 근사성과 안정적인 역전파 사이의 균형을 맞춘다.
- 기존 가중치가 아닌 가중치 스케일링 인자에 직접 L2 정규화를 적용하여 일반화 성능 향상과 과적합 감소를 도모한다.
- 표준 역전파를 통해 스케일링 인자를 네트워크 파라미터와 함께 동시에 학습시켜 종단 간 최적화를 가능하게 한다.
- 표현 능력을 유지하기 위해 첫 번째 및 마지막 레이어는 이진화에서 제외하고 배치 정규화 및 스케일링 인자를 정밀도 유지한다.
- 안정적인 기울기 흐름을 유지하면서도 높은 정확도를 확보하기 위해 날카운 근사 전략을 사용한다.
실험 결과
연구 질문
- RQ1가중치와 활성화에 모두 학습 가능한 스케일링 인자를 도입하면 고정된 평균 기반 스케일링 대비 이진 합성곱 신경망의 정확도 향상이 가능할까?
- RQ2불연속적인 이진화 함수의 기울기를 효과적으로 근사하여 이진 네트워크에서 안정적인 역전파를 가능하게 할 수 있을까?
- RQ3가중치 스케일링 인자에 직접 L2 정규화를 적용하면 일반화 성능 향상과 더 나은 테스트 정확도가 달성될까?
- RQ4제안된 방법을 통해 대규모 벤치마크인 ImageNet에서 전체 정밀도 모델과의 정확도 격차를 어느 정도 줄일 수 있을까?
- RQ5제안된 방법은 표준 비전 데이터셋에서 경쟁 가능한 추론 정확도를 유지하면서도 높은 모델 압축을 달성할 수 있을까?
주요 결과
- 제안된 방법은 VGG-Small 아키텍처를 사용해 CIFAR-10에서 92.3%의 top-1 정확도를 달성하여 이전의 이진 신경망을 뛰어넘는다.
- ImageNet에서는 AlexNet을 사용해 46.1%의 top-1 정확도, ResNet-18을 사용해 54.2%의 top-1 정확도를 기록하여 이전의 모든 이진 신경망 방법을 최대 12.0%포인트 이상 뛰어넘는다.
- 스케일링 인자에 도입된 L2 정규화로 인해 표준 BNN보다 검증 정확도 곡선이 더 안정적이며, 일반화 성능 향상이 이루어졌다.
- AlexNet의 경우 압축 비율이 10.5×, ResNet-18의 경우 14.2×에 도달하여, 첫 번째/마지막 레이어 및 정규화 레이어를 이진화에서 제외함에도 불구하고 이론적 32× 한계에 가까워진다.
- ImageNet에서 전체 정밀도 모델과의 정확도 격차를 약 10%로 줄여, 전체 정밀도 기준선 대비 뛰어난 성능을 보였다.
- 개선된 기울기 근사와 정규화 덕분에 표준 BNN보다 더 빠르고 안정적인 학습 수렴을 달성했다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.