Skip to main content
QUICK REVIEW

[논문 리뷰] Towards Accurate Binary Convolutional Neural Network

Xiaofan Lin, Cong Zhao|arXiv (Cornell University)|2017. 11. 30.
Neural Networks and Applications인용 수 392
한 줄 요약

이 논문은 ABC-Net을 도입하여 여러 이진 가중치 기초와 다수의 이진 활성화를 사용한 이진 CNN을 학습시키고, ImageNet에서 거의 풀정밀도 정확도에 근접하면서도 비트 단위 연산의 효율성을 가능하게 한다.

ABSTRACT

We introduce a novel scheme to train binary convolutional neural networks (CNNs) -- CNNs with weights and activations constrained to {-1,+1} at run-time. It has been known that using binary weights and activations drastically reduce memory size and accesses, and can replace arithmetic operations with more efficient bitwise operations, leading to much faster test-time inference and lower power consumption. However, previous works on binarizing CNNs usually result in severe prediction accuracy degradation. In this paper, we address this issue with two major innovations: (1) approximating full-precision weights with the linear combination of multiple binary weight bases; (2) employing multiple binary activations to alleviate information loss. The implementation of the resulting binary CNN, denoted as ABC-Net, is shown to achieve much closer performance to its full-precision counterpart, and even reach the comparable prediction accuracy on ImageNet and forest trail datasets, given adequate binary weight bases and activations.

연구 동기 및 목표

  • 가중치와 활성화를 이진화하여 모바일/하드웨어에서 메모리 사용량과 전력 소모를 줄이고 CNN 배치를 촉진한다.
  • 여러 이진 기초의 선형 조합으로 풀정밀도 가중치를 근사하는 방법을 제안한다.
  • 다중 이진 활성화를 사용하여 네트워크의 정보 흐름을 향상시킨다.
  • 충분한 기초를 사용하면 이진 CNN이 ImageNet에서 풀정밀도 정확도에 근접할 수 있음을 입증한다.

제안 방법

  • 실값 가중치를 B_m in {-1,+1}인 M개의 이진 가중치 기초의 선형 조합으로 표현한다.
  • 역전파를 가능하게 하기 위해 시프트된 정규화된 실수 가중치로부터 B_m를 계산하여 STE를 사용한 역전파를 가능하게 한다.
  • 이진 기초와 활성화를 통해 역전파를 가능하게 하기 위해 스트레이트 스루 추정치를 사용하여 학습한다.
  • 실값 활성화를 beta_n의 계수로 표현하여 N개의 이진 활성화 A_n의 선형 조합으로 구현하고, 더 풍부한 정보 전달을 가능하게 한다.
  • 활성화도 이진인 상태에서 합성곱을 M×N 이진 합성곱의 합으로 수행하여 비트 단위 연산을 가능하게 한다.
  • 다양한 이진 활성화를 안정화하고 최적화하기 위해 배치 정규화와 학습된 시프트 매개변수를 사용한다.

실험 결과

연구 질문

  • RQ1다중 이진 가중치 기초와 다중 이진 활성화를 사용하여 이진 CNN이 ImageNet에서 풀정밀도 정확도에 얼마나 근접할 수 있는가?
  • RQ2가중치 기초의 수 M과 활성화의 수 N를 다양하게 바꿨을 때 분류 정확도에 어떤 영향을 미치는가?
  • RQ3가중치의 전체(또는 채널 단위) 근사가 이진 기초를 사용해 CNN의 풀정밀도 가중치를 효과적으로 대체할 수 있는가?
  • RQ4대규모 데이터셋에서 ABC-Net이 기존 양자화/이진화 방법과 비교하여 어떤 위치에 있는가?

주요 결과

모델W (가중치 비트폭)A (활성화 비트폭)Top-1Top-5
Full-Precision Resnet-18323269.3%89.2%
BWN13260.8%83.0%
DoReFa-Net1459.2%81.5%
XNOR-Net1151.2%73.2%
BNN1142.2%67.1%
ABC-Net [5 binary weight bases, 5 binary activations]1165.0%85.9%
ABC-Net [5 binary weight bases, full-precision activations]13268.3%87.9%
  • 5개의 이진 가중치 기초와 5개의 이진 활성화를 사용한 ABC-Net은 ResNet-18에서 ImageNet의 Top-1 65.0% 및 Top-5 85.9%를 달성하여 풀정밀도 성능(Top-1 69.3%, Top-5 89.2%)에 근접하다.
  • M과 N을 증가시키면 정확도가 일관되게 향상되며, 구성 수가 커질수록 풀정밀도 모델에 대한 격차가 줄어드는 경향이 있다(예: M=5, N=5에서는 Top-1 차이가 약 4.3%로 감소).
  • 다른 최첨단 이진/저정밀 네트워크(BWN, XNOR-Net, BNN, DoReFa-Net)와 비교할 때, 다중 기초/활성화를 갖는 ABC-Net은 이진 가중치와 이진 활성화를 유지하면서도 Top-1/Top-5 정확도가 크게 높다.
  • 채널 단위 가중치 근사는 전체 가중치 근사보다 더 세밀한 모델링을 가능하게 하지만 학습 비용이 더 많이 든다.
  • 풀정밀 활성화와 이진 가중치(또는 그 반대)를 함께 사용할 때도 경쟁력 있는 결과를 보여주며, ABC-Net 설계의 유연성을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.