[논문 리뷰] Rotated Binary Neural Network
RBNN은 전체 정밀 가중치와 이진화된 버전 간의 각도 편향을 에포크별 가중치 회전을 통해 이중 회전 방식으로 줄여 CIFAR-10 및 ImageNet에서 이진 네트워크의 정확도를 향상시킨다.
Binary Neural Network (BNN) shows its predominance in reducing the complexity of deep neural networks. However, it suffers severe performance degradation. One of the major impediments is the large quantization error between the full-precision weight vector and its binary vector. Previous works focus on compensating for the norm gap while leaving the angular bias hardly touched. In this paper, for the first time, we explore the influence of angular bias on the quantization error and then introduce a Rotated Binary Neural Network (RBNN), which considers the angle alignment between the full-precision weight vector and its binarized version. At the beginning of each training epoch, we propose to rotate the full-precision weight vector to its binary vector to reduce the angular bias. To avoid the high complexity of learning a large rotation matrix, we further introduce a bi-rotation formulation that learns two smaller rotation matrices. In the training stage, we devise an adjustable rotated weight vector for binarization to escape the potential local optimum. Our rotation leads to around 50% weight flips which maximize the information gain. Finally, we propose a training-aware approximation of the sign function for the gradient backward. Experiments on CIFAR-10 and ImageNet demonstrate the superiorities of RBNN over many state-of-the-arts. Our source code, experimental settings, training logs and binary models are available at https://github.com/lmbxmu/RBNN.
연구 동기 및 목표
- 이진 신경망(BNN)에서 양자화 오차를 줄이고 전체 정밀 가중치와 이진화된 대응 간의 각도 편차를 해결하는 것을 목표로 한다.
- 가중치를 이진 정점에 맞추어 각도 차이를 최소화하는 회전 기반 프레임워크를 제안한다.
- 두 개의 더 작은 회전 행렬을 통해 큰 회전을 실현하는 계산적으로 효율적인 이중 회전 방식(bi-rotation)을 도입한다.
- 이진화 과정을 통해 효과적으로 역전파를 가능하게 하는 학습 인식형 기울기 근사를 개발한다.
제안 방법
- 학습의 시작 시 각 에포크에서 전체 정밀 가중치 벡터 w i에 회전 행렬 R i를 적용하여 R i^T w i와 sign(R i^T w i) 사이의 각도를 최소화한다.
- 복잡성을 줄이기 위해 R i = R1 i ⊗ R2 i로 구성된 이중 회전 구성에서 R1 i ∈ R^{n1×n1}, R2 i ∈ R^{n2×n2}, n i = n1 i · n2 i 를 사용한다.
- 직교성 제약 하에 tr(B W′ i (R2 i)^T (W i)^T R1 i)를 최대화하도록 교대 방식으로 B W′ i, R1 i, R2 i를 최적화하면 B W′ i = sign((R1 i)^T W i R2 i)이며 R1 i, R2 i는 SVD 기반의 극 분해를 통해 업데이트된다.
- 가변적으로 회전된 가중치 벡터를 도입한다: w̃ i = w i + ((R i)^T w i − w i) · α i 로 이진화의 방향을 동적으로 조정하고 국소 극값을 피하며, α i ∈ [0,1]이다.
- 역전파를 위한 학습 인식형 기울기 근사 F(x)를 제공하고, 기울기 F′(x)는 학습 진행(e ∕ E)에 맞춰 조정된다.
- RBNN의 엔드투엔드 학습을 가능하게 하기 위해 w i, α i 및 보조 양에 대한 기울기를 계산한다.
실험 결과
연구 질문
- RQ1에포크마다 가중치를 이진 정점에 맞추기 위해 가중치를 회전시켜 전체 정밀 가중치와 이진화된 버전 사이의 각도 편향을 줄일 수 있는가?
- RQ2두 개의 작은 회전 행렬로 구성된 이중 회전 접근 방식이 가중치 정렬을 위한 큰 회전을 효율적이고 효과적으로 근사하는가?
- RQ3학습 인식형 이진화 및 조정 가능한 회전 가중치가 CIFAR-10과 ImageNet에서 기존 BNN 방법과 비교하여 정확도를 향상시키는가?
주요 결과
- RBNN은 CIFAR-10에서 ResNet-18, ResNet-20, VGG-small 등의 여러 최첨단 BNN보다 일관되게 높은 성능을 보인다(비교 가능한 비트 설정에서).
- ImageNet에서 RBNN은 ResNet-18 및 ResNet-34에서 각각 IR-Net 대비 상위 1위 및 상위 5위의 개선을 달성한다.
- 이중 회전 방식은 큰 회전을 저메모리 및 계산으로 효율적으로 근사할 수 있게 한다.
- 학습 인식형 기울기 근사는 STE, PPF, EDE에 비해 이진화를 통한 역전파를 개선한다.
- 가중치 회전은 레이어당 가중치 플립을 약 50%로 증가시켜 학습 중 정보 이득을 극대화한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.