[논문 리뷰] Training Binary Neural Networks with Real-to-Binary Convolutions
이 논문은 강력한 베이스라인을 구축하고 주의 매칭(attention matching) 및 데이터 기반 채널 재스케일링을 통한 Real-to-Binary 정렬로 이진 신경망을 거의 실수값 정확도에 근접하게 학습합니다.
This paper shows how to train binary networks to within a few percent points ($\sim 3-5 \%$) of the full precision counterpart. We first show how to build a strong baseline, which already achieves state-of-the-art accuracy, by combining recently proposed advances and carefully adjusting the optimization procedure. Secondly, we show that by attempting to minimize the discrepancy between the output of the binary and the corresponding real-valued convolution, additional significant accuracy gains can be obtained. We materialize this idea in two complementary ways: (1) with a loss function, during training, by matching the spatial attention maps computed at the output of the binary and real-valued convolutions, and (2) in a data-driven manner, by using the real-valued activations, available during inference prior to the binarization process, for re-scaling the activations right after the binary convolution. Finally, we show that, when putting all of our improvements together, the proposed model beats the current state of the art by more than 5% top-1 accuracy on ImageNet and reduces the gap to its real-valued counterpart to less than 3% and 5% top-1 accuracy on CIFAR-100 and ImageNet respectively when using a ResNet-18 architecture. Code available at https://github.com/brais-martinez/real2binary.
연구 동기 및 목표
- 이진 네트워크와 실수값 네트워크 간의 표준 벤치마크에서 성능 격차를 줄이는 것을 목표로 한다.
- 최근 이진 네트워크 기술과 최적화된 학습 전략을 통합하여 강력한 베이스라인을 구성한다.
- binary 최적화를 이끌기 위한 Real-to-Binary 주의 매칭을 도입한다.
- 사전 이진화 실활성화에서 채널별 스케일링 팩터를 예측하는 데이터 기반의 활성화 정보 기반 채널 재스케일링을 도입한다.
제안 방법
- 최적화된 블록 구성과 학습 규칙으로 ResNet-18 기반의 강력한 이진 베이스라인을 구축한다.
- 선정된 블록에서 정규화된 주의 맵을 실수값 선생님과 정렬하여 Real-to-Binary 주의 매칭을 도입한다.
- 실수 값 네트워크와 이진 네트워크 간의 아키텍처 차이를 메우기 위한 점진적 교사-학생 학습 체계를 채택한다.
- Binary Conv 출력의 재스케일링을 위해 프리바이너라이즈드 실활성화에서 채널별 스케일 팩터를 예측하는 데이터 기반 게이팅 함수 G를 개발한다.
- 스케일링/게이팅 구성요소로 인해 FLOPs가 약 1% 증가하는 것을 제외하고는 이진 FLOPs를 거의 일정하게 유지한다.
- BNN, XNOR-Net, Bi-Real, 및 제안 방법 간의 비용 분석을 제공한다.
실험 결과
연구 질문
- RQ1강력한 베이스라인이 Binary 네트워크를 ImageNet에서 최첨단 정확도로 끌어올릴 수 있는가, 이진 연산 증가 없이도 가능할까?
- RQ2Attention transfer를 통해 이진 합성곱을 실수형 대응자와 정렬하는 것이 이진 네트워크의 학습 신호를 개선하는가?
- RQ3데이터 기반의 활성화 정보 기반 채널 재스케일링이 실질적으로 실수형 네트워크와의 격차를 크게 좁힐 수 있는가?
- RQ4점진적 교사-학생 전략이 이진 네트워크 최적화에 어떤 영향을 미치는가?
주요 결과
- 강력한 베이스라인이 ImageNet에서 이전에 발표된 모든 이진 네트워크 결과를 약 1% 상위-1 정확도로 능가한다.
- 제안된 Real-to-Binary 주의 매칭 및 점진적 교사-학생 전략은 상당한 개선을 제공하며 ImageNet에서 상위-1 성능이 5% 이상 향상된다.
- Real-to-Bin 방법은 CIFAR-100에서 실수형 상대자와의 격차를 약 상위-1 4%, ImageNet에서 약 5%로 축소한다(ResNet-18 기준).
- 데이터 기반 채널 재스케일링은 이진 네트워크와 실수형 네트워크 간 남은 격차의 3분의 1 이상을 해소한다.
- ImageNet에서 ResNet-18에 대해 Real-to-Bin은 65.4% 상위1 및 86.2% 상위5를 달성하는 반면, 강력한 베이스라인은 60.9%/83.0%, 전체 정밀도는 69.3%/89.2%이다.
- 이 방법은 기존의 이진 네트워크와 비슷한 계산 비용을 유지하며 FLOPs가 약 1% 증가한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.