[논문 리뷰] Improved training of binary networks for human pose estimation and image recognition
이 논문은 활성화 선택, 역순 초기화, 점진적 양자화, 네트워크 스태킹의 일련의 기법으로 이진 신경망을 향상시키고, MPII 포즈 추정과 ImageNet 분류에서 상당한 정확도 향상을 보여준다. 또한 증류 전략을 포함한다.
Big neural networks trained on large datasets have advanced the state-of-the-art for a large variety of challenging problems, improving performance by a large margin. However, under low memory and limited computational power constraints, the accuracy on the same problems drops considerable. In this paper, we propose a series of techniques that significantly improve the accuracy of binarized neural networks (i.e networks where both the features and the weights are binary). We evaluate the proposed improvements on two diverse tasks: fine-grained recognition (human pose estimation) and large-scale image recognition (ImageNet classification). Specifically, we introduce a series of novel methodological changes including: (a) more appropriate activation functions, (b) reverse-order initialization, (c) progressive quantization, and (d) network stacking and show that these additions improve existing state-of-the-art network binarization techniques, significantly. Additionally, for the first time, we also investigate the extent to which network binarization and knowledge distillation can be combined. When tested on the challenging MPII dataset, our method shows a performance improvement of more than 4% in absolute terms. Finally, we further validate our findings by applying the proposed techniques for large-scale object recognition on the Imagenet dataset, on which we report a reduction of error rate by 4%.
연구 동기 및 목표
- 저자들은 저자원 제약하에서 자세 추정 및 이미지 인식에 대해 고정밀 이진 네트워크를 가능하게 하고 동기를 부여합니다.
- MPII 및 ImageNet에서 이전의 최첨단을 능가하는 이진화에 대한 방법론적 개선을 제안하고 검증합니다.
- 이진화와 지식 증류를 결합하여 성능을 높이는 방법을 탐구합니다.
- 이 접근법의 일반성을 다양한 작업과 아키텍처에서 보여줍니다.
제안 방법
- HourGlass 기반 자세 추정용 강력한 이진 베이스라인 및 이진 컨볼루션 블록을 채택합니다.
- ReLU를 PReLU로 교체하여 이진 학습의 안정성을 높입니다.
- 특징 먼저 이진화하고 가중치를 두 번째로 이진화하는 역순 초기화를 사용합니다.
- sgn을 tunable tanh 기반 함수로 근사하고 람다를 점진적으로 증가시키며 매끄러운 점진적 양자화를 구현합니다.
- 여러 개의 이진 HourGlass 네트워크를 스택하여 예측을 정제합니다.
- 실수값 교사나 이진 교사로부터 소프트 레이블을 사용한 지식 증류를 이진 학생에 적용해 성능을 높이는 방법을 조사합니다.
실험 결과
연구 질문
- RQ1 향상된 활성화, 초기화, 점진적 양자화, 스태킹으로 이진 네트워크를 학습시키는 것이 포즈 추정 및 ImageNet에서 실수값 네트워크와의 격차를 줄일 수 있나요?
- RQ2 이진화와 지식 증류의 결합이 성능에 어떤 영향을 미치나요?
- RQ3 제안된 개선책이 포즈 추정 및 대규모 이미지 분류 전반에 걸쳐 작업과 아키텍처에 대해 독립적인가요?
- RQ4 특징과 가중치를 점진적으로 이진화하는 것이 학습 안정성과 정확도에 어떤 영향을 미치나요?
주요 결과
- MPII에서 이 방법은 상태-오브-더-아트의 이진 베이스라인 대비 절대 기준으로 PCKh를 최대 4.0 포인트 향상시킵니다.
- ReLU를 PReLU로 교체하면 의미 있는 정확도 향상이 있고 학습 안정성이 향상됩니다.
- 역순 초기화(특징 우선, 가중치 두 번째)는 PCKh에서 약 0.8 포인트의 향상을 더합니다.
- 점진적 이진화는 PCKh에서 추가 약 0.4 포인트를 제공합니다.
- 두 개와 세 개의 이진 HourGlass 네트워크를 스택하면 각각 1.5포인트 및 1.9포인트의 이득을 줍니다.
- 이진화와 증류의 결합은 추가 개선을 제공합니다(이진 학생과 실수값 교사로 최대 0.6%까지; 다중 스택 구성에서 추가 이득).
- ImageNet의 경우 이 접근법은 AlexNet과 ResNet-18 모두에서 이진 네트워크를 사용할 때 이전 상태-오브-더-아트 대비 절대 오차율을 최대 4%까지 감소시킵니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.