QUICK REVIEW

[논문 리뷰] Towards Accurate Binary Convolutional Neural Network

Xiaofan Lin, Cong Zhao|arXiv (Cornell University)|2017. 11. 30.

Neural Networks and Applications인용 수 392

한 줄 요약

이 논문은 ABC-Net을 도입하여 여러 이진 가중치 기초와 다수의 이진 활성화를 사용한 이진 CNN을 학습시키고, ImageNet에서 거의 풀정밀도 정확도에 근접하면서도 비트 단위 연산의 효율성을 가능하게 한다.

ABSTRACT

We introduce a novel scheme to train binary convolutional neural networks (CNNs) -- CNNs with weights and activations constrained to {-1,+1} at run-time. It has been known that using binary weights and activations drastically reduce memory size and accesses, and can replace arithmetic operations with more efficient bitwise operations, leading to much faster test-time inference and lower power consumption. However, previous works on binarizing CNNs usually result in severe prediction accuracy degradation. In this paper, we address this issue with two major innovations: (1) approximating full-precision weights with the linear combination of multiple binary weight bases; (2) employing multiple binary activations to alleviate information loss. The implementation of the resulting binary CNN, denoted as ABC-Net, is shown to achieve much closer performance to its full-precision counterpart, and even reach the comparable prediction accuracy on ImageNet and forest trail datasets, given adequate binary weight bases and activations.

연구 동기 및 목표

가중치와 활성화를 이진화하여 모바일/하드웨어에서 메모리 사용량과 전력 소모를 줄이고 CNN 배치를 촉진한다.
여러 이진 기초의 선형 조합으로 풀정밀도 가중치를 근사하는 방법을 제안한다.
다중 이진 활성화를 사용하여 네트워크의 정보 흐름을 향상시킨다.
충분한 기초를 사용하면 이진 CNN이 ImageNet에서 풀정밀도 정확도에 근접할 수 있음을 입증한다.

제안 방법

실값 가중치를 B_m in {-1,+1}인 M개의 이진 가중치 기초의 선형 조합으로 표현한다.
역전파를 가능하게 하기 위해 시프트된 정규화된 실수 가중치로부터 B_m를 계산하여 STE를 사용한 역전파를 가능하게 한다.
이진 기초와 활성화를 통해 역전파를 가능하게 하기 위해 스트레이트 스루 추정치를 사용하여 학습한다.
실값 활성화를 beta_n의 계수로 표현하여 N개의 이진 활성화 A_n의 선형 조합으로 구현하고, 더 풍부한 정보 전달을 가능하게 한다.
활성화도 이진인 상태에서 합성곱을 M×N 이진 합성곱의 합으로 수행하여 비트 단위 연산을 가능하게 한다.
다양한 이진 활성화를 안정화하고 최적화하기 위해 배치 정규화와 학습된 시프트 매개변수를 사용한다.

실험 결과

연구 질문

RQ1다중 이진 가중치 기초와 다중 이진 활성화를 사용하여 이진 CNN이 ImageNet에서 풀정밀도 정확도에 얼마나 근접할 수 있는가?
RQ2가중치 기초의 수 M과 활성화의 수 N를 다양하게 바꿨을 때 분류 정확도에 어떤 영향을 미치는가?
RQ3가중치의 전체(또는 채널 단위) 근사가 이진 기초를 사용해 CNN의 풀정밀도 가중치를 효과적으로 대체할 수 있는가?
RQ4대규모 데이터셋에서 ABC-Net이 기존 양자화/이진화 방법과 비교하여 어떤 위치에 있는가?

주요 결과

모델	W (가중치 비트폭)	A (활성화 비트폭)	Top-1	Top-5
Full-Precision Resnet-18	32	32	69.3%	89.2%
BWN	1	32	60.8%	83.0%
DoReFa-Net	1	4	59.2%	81.5%
XNOR-Net	1	1	51.2%	73.2%
BNN	1	1	42.2%	67.1%
ABC-Net [5 binary weight bases, 5 binary activations]	1	1	65.0%	85.9%
ABC-Net [5 binary weight bases, full-precision activations]	1	32	68.3%	87.9%

5개의 이진 가중치 기초와 5개의 이진 활성화를 사용한 ABC-Net은 ResNet-18에서 ImageNet의 Top-1 65.0% 및 Top-5 85.9%를 달성하여 풀정밀도 성능(Top-1 69.3%, Top-5 89.2%)에 근접하다.
M과 N을 증가시키면 정확도가 일관되게 향상되며, 구성 수가 커질수록 풀정밀도 모델에 대한 격차가 줄어드는 경향이 있다(예: M=5, N=5에서는 Top-1 차이가 약 4.3%로 감소).
다른 최첨단 이진/저정밀 네트워크(BWN, XNOR-Net, BNN, DoReFa-Net)와 비교할 때, 다중 기초/활성화를 갖는 ABC-Net은 이진 가중치와 이진 활성화를 유지하면서도 Top-1/Top-5 정확도가 크게 높다.
채널 단위 가중치 근사는 전체 가중치 근사보다 더 세밀한 모델링을 가능하게 하지만 학습 비용이 더 많이 든다.
풀정밀 활성화와 이진 가중치(또는 그 반대)를 함께 사용할 때도 경쟁력 있는 결과를 보여주며, ABC-Net 설계의 유연성을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.