[논문 리뷰] From Hashing to CNNs: Training BinaryWeight Networks via Hashing
이 논문은 이진 가중치 CNN의 학습을 내적 보존 해싱 문제로 재구성하고 BWNH를 제안한다. BWNH는 스케일링 계수를 가진 교대 최적화 방법으로 CIFAR-10/100 및 ImageNet에서 최첨단 결과를 달성한다.
Deep convolutional neural networks (CNNs) have shown appealing performance on various computer vision tasks in recent years. This motivates people to deploy CNNs to realworld applications. However, most of state-of-art CNNs require large memory and computational resources, which hinders the deployment on mobile devices. Recent studies show that low-bit weight representation can reduce much storage and memory demand, and also can achieve efficient network inference. To achieve this goal, we propose a novel approach named BWNH to train Binary Weight Networks via Hashing. In this paper, we first reveal the strong connection between inner-product preserving hashing and binary weight networks, and show that training binary weight networks can be intrinsically regarded as a hashing problem. Based on this perspective, we propose an alternating optimization method to learn the hash codes instead of directly learning binary weights. Extensive experiments on CIFAR10, CIFAR100 and ImageNet demonstrate that our proposed BWNH outperforms current state-of-art by a large margin.
연구 동기 및 목표
- 모바일/임베디드 디바이스에서의 배치를 위한 CNN 매개변수 크기 및 계산 감소를 동기부여한다.
- 내적 보존 해싱과 이진 가중치 네트워크 간의 강한 연결고리를 제시한다.
- 스케일링 계수를 가진 이진 가중치를 학습하기 위한 해싱 기반 최적화 프레임워크를 개발한다.
- 표준 벤치마크에서 기존의 이진 가중치 네트워크보다 우수한 성능을 입증한다.
- 레이어 단위 최적화 및 미세 조정(파인 튜닝)을 포함하는 실용적인 학습 방식을 제공한다.
제안 방법
- 이진 가중치 학습을 내적 보존 해싱 문제로 공식화한다.
- 양자화 손실을 보상하기 위해 스케일링 계수 g(W) = B A를 도입한다.
- 레이어별로 폐쇄형 해 업데이트를 사용한 교대 최적화로 B와 A를 해결한다.
- 이진 코드 B를 업데이트하기 위해 이산 순환 좌표 하강법(DCC)을 사용한다.
- 레이어 간 누적 양자화 오류를 완화하기 위해 계층별 최적화를 채택한다.
- 학습된 이진 코드와 스케일링 계수로 초기화된 이진 네트워크를 미세 조정한다.
실험 결과
연구 질문
- RQ1이진 가중치 네트워크를 해싱 문제로 재구성하여 효과적으로 학습할 수 있는가?
- RQ2필터당 스케일링 계수를 도입하는 것이 이진 가중치 CNN의 정확도를 향상시키는가?
- RQ3계층별 해싱 기반 접근법이 대형 모델 및 데이터셋(ImageNet)에 대해 이전의 이진 가중치 방법들보다 얼마나 확장되는가?
- RQ4성능과 미세 조정 중 네트워크 적응성에 대한 스케일링 계수의 영향은 무엇인가?
주요 결과
- BWNH는 CIFAR-10/100 및 ImageNet에서 최첨단 이진 가중치 방법보다 우수한 성능을 보인다.
- ImageNet에서 ResNet-18을 사용시 BWNH는 Top-1 64.3%, Top-5 85.9%를 달성하며 BWN의 60.8%/83.0% 및 전체 정밀도인 69.3%/89.2%보다 우수하다.
- BWNH는 ResNet-18을 사용한 ImageNet에서 최상의 보고된 이진 가중치 네트워크보다 Top-1 정확도가 3.0pp 높다.
- CIFAR-10/100에서 VGG-9로 BWNH가 9.21%(CIFAR-10) 및 34.35%(CIFAR-100) 오차를 달성하며 BinaryConnect, BWN 및 SQ-BWN을 능가한다.
- 스케일링 계수는 결정적이며, 계수 없이는 정확도가 붕괴하고, 추론 시 BatchNorm에 흡수될 수 있다.
- BWNH는 다른 이진 가중치 학습 방법에 유용한 초기화를 제공할 수 있으며 이후 미세 조정 단계에서 이점을 얻는다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.