QUICK REVIEW

[논문 리뷰] Self-Binarizing Networks

Fayez Lahoud, Radhakrishna Achanta|arXiv (Cornell University)|2019. 02. 02.

Advanced Memory and Neural Computing참고 문헌 34인용 수 23

한 줄 요약

이 논문은 부드럽고 날카러지는 hyperbolic tangent 활성화 함수를 사용하여 깊은 신경망이 sign 함수의 비미분 가능성을 피하면서 이분화된 가중치와 활성화로 진화하도록 훈련하는 Self-Binarizing Networks를 제안한다. 부동소수점 모드와 이진 모드를 번갈아 가며 사용하는 것을 피하고 배치 정규화를 비교 기반 연산으로 대체함으로써, 저해상도 하드웨어에서 완전히 이진 추론이 가능한 상태에서 CIFAR-10, CIFAR-100, ImageNet에서 최신 기준 성능을 달성한다.

ABSTRACT

We present a method to train self-binarizing neural networks, that is, networks that evolve their weights and activations during training to become binary. To obtain similar binary networks, existing methods rely on the sign activation function. This function, however, has no gradients for non-zero values, which makes standard backpropagation impossible. To circumvent the difficulty of training a network relying on the sign activation function, these methods alternate between floating-point and binary representations of the network during training, which is sub-optimal and inefficient. We approach the binarization task by training on a unique representation involving a smooth activation function, which is iteratively sharpened during training until it becomes a binary representation equivalent to the sign activation function. Additionally, we introduce a new technique to perform binary batch normalization that simplifies the conventional batch normalization by transforming it into a simple comparison operation. This is unlike existing methods, which are forced to the retain the conventional floating-point-based batch normalization. Our binary networks, apart from displaying advantages of lower memory and computation as compared to conventional floating-point and binary networks, also show higher classification accuracy than existing state-of-the-art methods on multiple benchmark datasets.

연구 동기 및 목표

표현 함수가 기울기가 0이 되어 표준 역전파가 불가능한 이진 신경망 훈련의 과제를 해결하기 위해.
훈련 중에 부동소수점 표현과 이진 표현을 번갈아 가며 사용하는 것의 필요성을 제거하여 비효율성과 근사 오차를 줄이기 위해.
부동소수점 연산이 필요한 기존 배치 정규화를 이진화에 적합하고 메모리 효율적인 비교 기반 대체품으로 대체하기 위해.
모든 부동소수점 연산을 제거함으로써 저해상도 칩과 마이크로컨트롤러에 완전히 이진화된 네트워크를 구현할 수 있도록 하기 위해.
기존 이진화 방법보다 더 높은 분류 정확도를 달성하면서도 낮은 메모리 및 계산 비용을 유지하기 위해.

제안 방법

학습 중에 점차 날카러지는 활성화 함수로, 스케일링 인자 ν를 가진 확장된 hyperbolic tangent 함수 tanh(νx)를 사용하며, ν는 학습 중에 증가하여 점차 sign 함수를 근사한다.
단일 연속적인 부동소수점 표현에서 끝에서 끝까지 역전파를 사용하여 네트워크를 훈련함으로써 이진 모드와 부동소수점 모드를 전환할 필요가 없어진다.
기존 배치 정규화를 대체하기 위해 새로운 이진 배치 정규화(Binary Batch Normalization, BinaryBN) 레이어를 도입하며, 이는 단순한 비교 연산으로 구성된다: 출력 = (x > T) ? 1 : -1, 여기서 T는 채널별로 학습 가능한 임계값이다.
BinaryBN 레이어는 채널당 하나의 8비트 임계값과 스케일을 위한 이진 부호를 저장하여, 표준 BN의 128c 비트 대비 9c 비트로 메모리 사용량을 줄인다.
배치 정규화 내 모든 부동소수점 연산을 제거함으로써 완전한 이진 추론을 가능하게 하여 마이크로컨트롤러 및 저해상도 칩에 배포 가능한 구조를 확보한다.
성능은 정확도, 메모리, 계산량을 기준으로 VGG와 AlexNet 아키텍처를 사용하여 CIFAR-10, CIFAR-100, ImageNet 벤치마크에서 검증되었다.

실험 결과

연구 질문

RQ1깊은 신경망이 연속적이고 미분 가능한 활성화 함수를 사용하여 점차 이진화되는 방식으로 가중치와 활성화를 자가 이분화시킬 수 있는가?
RQ2부동소수점과 이진 표현 간의 번갈아 가는 훈련 방식을 피할 경우, 훈련 안정성과 최종 모델 정확도가 향상되는가?
RQ3표준 배치 정규화를 부동소수점 연산 없이도 성능을 유지하면서 이진화에 적합한 비교 기반 연산으로 대체할 수 있는가?
RQ4결과로 도출된 네트워크가 표준 벤치마크에서 최신 기준 성능을 달성하면서도 저해상도 하드웨어에 완전히 배포 가능한가?
RQ5tanh(νx)를 통한 부드러운 이진화와 sign(x)를 통한 딱딱한 이진화 간의 가중치 분포 진화 및 최종 성능에서 어떤 차이가 있는가?

주요 결과

제안된 자가 이분화 네트워크는 CIFAR-10, CIFAR-100, ImageNet 벤치마크에서 기존 최신 기준 이진화 방법보다 더 높은 분류 정확도를 달성한다.
CIFAR-10에서 이 방법은 VGG-16 기준 상위-1 정확도 92.1%를 기록하여 XNOR-Net 및 BWN과 같은 이전 방법들을 능가한다.
BinaryBN 레이어는 채널당 9c 비트로 메모리 사용량을 줄여 표준 BN의 128c 비트 대비 93% 감소시켰다.
BinaryBN 레이어는 비교 연산과 비트 시프트만으로 2chw 연산을 수행하여 표준 BN 및 SBN 대비 거의 한 단계 빠른 처리 속도를 확보했다.
모든 부동소수점 연산을 제거함으로써 완전한 이진 추론이 가능해졌으며, 이는 마이크로컨트롤러 및 저해상도 통합 회로에 배포 가능한 구조를 제공한다.
가중치 히스토GRAM은 tanh(νx)를 통한 연속적 이진화가 초기 훈련 단계에서 중심이 0인 분포를 유지함으로써, sign(x)를 사용한 딱딱한 이진화보다 더 나은 기울기 흐름과 개선된 수렴 성능을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.