[논문 리뷰] ReActNet: Towards Precise Binary Neural Network with Generalized Activation Functions
ReActNet은 Activation distribution shaping을 통해 일반화된 ReAct-Sign 및 ReAct-PReLU를 활용하고, 실값 출력과의 근접 모방을 위한 distributional loss를 더해 연산이 크게 낮은 상태에서 1-bit CNN에 대해 ImageNet 정확도 최첨단을 달성하는 강력한 기준 이진 네트워크를 제시합니다.
In this paper, we propose several ideas for enhancing a binary network to close its accuracy gap from real-valued networks without incurring any additional computational cost. We first construct a baseline network by modifying and binarizing a compact real-valued network with parameter-free shortcuts, bypassing all the intermediate convolutional layers including the downsampling layers. This baseline network strikes a good trade-off between accuracy and efficiency, achieving superior performance than most of existing binary networks at approximately half of the computational cost. Through extensive experiments and analysis, we observed that the performance of binary networks is sensitive to activation distribution variations. Based on this important observation, we propose to generalize the traditional Sign and PReLU functions, denoted as RSign and RPReLU for the respective generalized functions, to enable explicit learning of the distribution reshape and shift at near-zero extra cost. Lastly, we adopt a distributional loss to further enforce the binary network to learn similar output distributions as those of a real-valued network. We show that after incorporating all these ideas, the proposed ReActNet outperforms all the state-of-the-arts by a large margin. Specifically, it outperforms Real-to-Binary Net and MeliusNet29 by 4.0% and 3.6% respectively for the top-1 accuracy and also reduces the gap to its real-valued counterpart to within 3.0% top-1 accuracy on ImageNet dataset. Code and models are available at: https://github.com/liuzechun/ReActNet.
연구 동기 및 목표
- Binary와 실값 네트워크 간의 정확도 차를 추가 연산 없이 ImageNet상에서 좁히기
- Identity 단축 경로를 가진 소형 실값 백본을 활용한 고성능 기준 이진 네트워크 설계
- activation distribution의 효과를 조사하고 분포를 재구성하는 학습 가능한 일반화 활성화 함수를 도입
- 실값 네트워크의 출력 분포와 이진 네트워크 출력을 정렬하기 위한 distributional loss 사용
제안 방법
- 매개변수-없는 shortcuts로 중간 컨볼루션을 우회하여 MobileNetV1을 이진화해 기준 이진 네트워크를 구성합니다.
- 입력/출력 채널을 동일하게 유지하고 이진화된 shortcuts를 가능하게 하기 위해 다운샘플링 블록을 연결 기반 설계로 대체합니다.
- 채널별 분포 재구성을 거의 비용 없이 학습하는 ReAct-Sign (RSign) 및 ReAct-PReLU (RPReLU)를 도입합니다.
- 실값 네트워크 출력 분포와 이진 네트워크 출력 분포 사이의 KL 발산을 최소화하는 distributional loss를 도입합니다.
- ImageNet에서 평가하고 최첨단 이진 네트워크 및 실값 기반 기준과 비교합니다
실험 결과
연구 질문
- RQ11비트 CNN이 최소한의 계산 오버헤드로 ImageNet에서 실값 상대의 정확도에 얼마나 근접할 수 있는가?
- RQ2분포 재설계 활성화 및 distributional loss 학습이 추가 FLOPs 없이 이진 네트워크 성능을 크게 향상시킬 수 있는가?
- RQ3다운샘플링 설계와 활성화 분포가 대규모 데이터셋에서 이진 네트워크 정확도에 미치는 영향은 무엇인가?
주요 결과
- 제안된 기준은 ~0.87e9 BOPs에서 ImageNet에서 61.1% top-1 정확도를 달성하며, 비용의 절반 수준에서 많은 이전 이진 네트워크를 능가합니다.
- RSign 및 RPReLU를 추가하면 각각 기초 대비 정확도가 4.9% 및 3.6% 증가하며, 두 가지를 모두 사용한 ReActNet-A는 69.4% top-1로 실값 네트워크에 비해 3% 이내의 차이를 보입니다.
- 분포 기반 손실은 활성화 형상화 외에도 정확도를 약 1% 추가 향상시킵니다.
- ReActNet-C는 경쟁 방법들보다 현저히 낮은 OP로 71.4% top-1 정확도에 도달하여 MeliusNet59를 능가하면서도 더 효율적입니다.
- concat된 다운샘플링 및 1-bit 컨볼루션과 shortcuts 조합이 계산 비용을 낮추고 정확도를 개선합니다.
- 시각화는 학습된 활성화 이동 계수가 실값 네트워크 분포를 닮았고 활성화 맵의 균형을 더 잘 이끈 것을 보여줍니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.