QUICK REVIEW

[논문 리뷰] Bi-Real Net: Enhancing the Performance of 1-bit CNNs With Improved Representational Capability and Advanced Training Algorithm

Zechun Liu, Baoyuan Wu|arXiv (Cornell University)|2018. 08. 01.

Advanced Neural Network Applications참고 문헌 27인용 수 24

한 줄 요약

이 논문은 1비트 합성곱 신경망인 Bi-Real Net을 제안한다. 이는 1비트 합성곱 후, 시그널 함수 이전의 실수형 활성화값을 다음 블록의 입력에 직접 연결하는 잔차 연결을 도입하여 표현 능력을 향상시킨다. 또한 시그널 함수의 더 정밀한 도함수 근사, 크기 인식 가중치 기울기, 클립 기반 사전 훈련을 포함하는 새로운 훈련 알고리즘과 결합하여, 34층의 네트워크로 ImageNet에서 62.2%의 상위 1위 정확도를 달성한다. 이는 기존 최고 수준의 1비트 모델보다 최대 10% 높으며, 계산 오버헤드는 최소화하고 메모리 절감 효과도 크다.

ABSTRACT

In this work, we study the 1-bit convolutional neural networks (CNNs), of which both the weights and activations are binary. While being efficient, the classification accuracy of the current 1-bit CNNs is much worse compared to their counterpart real-valued CNN models on the large-scale dataset, like ImageNet. To minimize the performance gap between the 1-bit and real-valued CNN models, we propose a novel model, dubbed Bi-Real net, which connects the real activations (after the 1-bit convolution and/or BatchNorm layer, before the sign function) to activations of the consecutive block, through an identity shortcut. Consequently, compared to the standard 1-bit CNN, the representational capability of the Bi-Real net is significantly enhanced and the additional cost on computation is negligible. Moreover, we develop a specific training algorithm including three technical novelties for 1- bit CNNs. Firstly, we derive a tight approximation to the derivative of the non-differentiable sign function with respect to activation. Secondly, we propose a magnitude-aware gradient with respect to the weight for updating the weight parameters. Thirdly, we pre-train the real-valued CNN model with a clip function, rather than the ReLU function, to better initialize the Bi-Real net. Experiments on ImageNet show that the Bi-Real net with the proposed training algorithm achieves 56.4% and 62.2% top-1 accuracy with 18 layers and 34 layers, respectively. Compared to the state-of-the-arts (e.g., XNOR Net), Bi-Real net achieves up to 10% higher top-1 accuracy with more memory saving and lower computational cost. Keywords: binary neural network, 1-bit CNNs, 1-layer-per-block

연구 동기 및 목표

ImageNet과 같은 대규모 데이터셋에서 표준 이진화 모델이 실수형 네트워크에 비해 심한 정확도 저하를 겪는 문제를 해결하기 위해.
계산 및 메모리 오버헤드를 크게 증가시키지 않고도 1비트 CNN의 표현 능력을 향상시키기 위해.
비가역적인 연산(예: 시그널 함수)으로 인해 발생하는 과제를 해결하기 위해 1비트 네트워크에 특화된 훈련 알고리즘을 개발하기 위해.
이진 추론의 효율성 이점을 유지하면서도 최신 1비트 CNN 성능을 달성하기 위해.
일반적으로 표준 1비트 네트워크에서 폐기되는 실수형 중간 특징값이 잔차 연결을 통해 적절히 유지될 경우 모델 정확도를 크게 향상시킬 수 있음을 보여주기 위해.

제안 방법

1비트 합성곱 및 배치 정규화 이후, 시그널 함수 이전의 실수형 활성화값을 다음 블록의 입력에 직접 연결하는 잔차 연결을 도입하여 더 풍부한 특징 표현을 유지한다.
이전 연구에서 사용된 덜 정확한 단계함수 도함수 대신, 시그널 함수의 조각 다항식 근사를 제안하여 더 정확한 기울기 역전파를 가능하게 한다.
실수형 활성화값의 크기를 기울기 계산에 통합하여 크기 인식 기반의 가중치 업데이트 기울기를 설계함으로써 최적화 안정성을 향상시킨다.
전체 정밀도 모델의 사전 훈련 단계에서 ReLU 대신 클립 함수를 사용하여 Bi-Real Net의 초기화를 향상시켜, 이진화 설정에서의 수렴을 개선한다.
첫 번째 및 마지막 레이어, 1x1 잔차 연결만 실수형을 유지하는 하이브리드 네트워크 설계를 통해 메모리 및 계산 비용을 최소화하면서도 핵심 정보를 유지한다.
이중 단계 훈련 프로세스를 적용한다. 먼저 클립 활성화 함수를 사용해 전체 정밀도 네트워크를 사전 훈련하고, 이후 제안된 기울기 및 근사 기법을 사용해 이진화된 네트워크를 미세 조정한다.

실험 결과

연구 질문

RQ1계산 및 메모리 비용을 크게 증가시키지 않고도 1비트 CNN의 표현 능력을 크게 향상시킬 수 있는가?
RQ2비가역적인 시그널 함수를 역전파 과정에서 어떻게 근사할 수 있는가? 이를 통해 1비트 네트워크의 효과적인 훈련이 가능해지는가?
RQ3활성화값의 크기를 가중치 기울기 계산에 통합할 경우 1비트 CNN 최적화에 어떤 영향을 미치는가?
RQ4ReLU 대신 클립 함수를 사용한 사전 훈련이 1비트 네트워크의 초기화 및 성능 향상에 기여하는가?
RQ5제안된 Bi-Real Net 아키텍처는 ImageNet에서 정확도, 메모리 사용량, 계산 효율성 측면에서 최신 1비트 모델과 비교해 어떻게 성능을 내는가?

주요 결과

18층의 Bi-Real Net은 ImageNet에서 56.4%의 상위 1위 정확도를 달성하여 이전 1비트 모델보다 최대 10%의 상대적 향상을 보였다.
34층의 Bi-Real Net은 62.2%의 상위 1위 정확도를 기록하여 기존 1비트 네트워크에 비해 강력한 확장성과 성능 향상을 입증했다.
18층 기준으로 전체 정밀도 ResNet 대비 11.1배, 34층 기준으로 15.97배의 메모리 사용량 감소를 기록했으며, 추가 비용은 극히 미미했다.
18층 기준으로 전체 정밀도 ResNet 대비 11.06배, 34층 기준으로 18.99배의 속도 향상을 달성했으며, 이는 효율적인 XNOR 및 비트 카운팅 연산 덕분이었다.
시그널 함수의 도함수 근사를 제안한 방법은 이전 연구에서 사용된 단계함수 도함수 대비 더 안정적이고 효과적인 역전파를 가능하게 했다.
크기 인식 기울기와 클립 기반 사전 훈련은 추론 수렴 및 최종 정확도 향상에 기여했으며, 이는 아블레이션 연구를 통해 검증되었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.