Skip to main content
QUICK REVIEW

[논문 리뷰] BranchyNet: Fast Inference via Early Exiting from Deep Neural Networks

Surat Teerapittayanon, Bradley McDanel|arXiv (Cornell University)|2017. 09. 06.
Advanced Neural Network Applications참고 문헌 21인용 수 59
한 줄 요약

BranchyNet은 표준 네트워크에 사이드 종료 가지를 추가하여 분류가 쉬운 샘플이 조기에 종료되도록 하며, 추론 시간과 에너지를 줄이면서 정확도를 유지합니다; 공동으로 학습되며 엔트로피 임계값을 사용해 조기 종료를 결정합니다.

ABSTRACT

Deep neural networks are state of the art methods for many learning tasks due to their ability to extract increasingly better features at each network layer. However, the improved performance of additional layers in a deep network comes at the cost of added latency and energy usage in feedforward inference. As networks continue to get deeper and larger, these costs become more prohibitive for real-time and energy-sensitive applications. To address this issue, we present BranchyNet, a novel deep network architecture that is augmented with additional side branch classifiers. The architecture allows prediction results for a large portion of test samples to exit the network early via these branches when samples can already be inferred with high confidence. BranchyNet exploits the observation that features learned at an early layer of a network may often be sufficient for the classification of many data points. For more difficult samples, which are expected less frequently, BranchyNet will use further or all network layers to provide the best likelihood of correct prediction. We study the BranchyNet architecture using several well-known networks (LeNet, AlexNet, ResNet) and datasets (MNIST, CIFAR10) and show that it can both improve accuracy and significantly reduce the inference time of the network.

연구 동기 및 목표

  • 모델이 더 깊어질수록 심층 네트워크에서 더 빠르고 에너지 효율적인 추론의 필요성을 제시한다.
  • 조기 예측을 가능하게 하는 사이드 종료 가지를 갖는 BranchyNet 아키텍처를 소개한다.
  • 모든 종료 지점에 걸친 공동 손실 최적화를 제안하여 정규화하고 성능을 향상시킨다.
  • 표준 네트워크와 데이터셋에서 런타임과 정확도 이점을 입증한다.
  • 종료 지점과 임계값에 대한 하이퍼파라미터 민감도 및 설계 고려사항을 논의한다.

제안 방법

  • 선정된 지점에서 기준 네트워크에 하나 이상의 사이드 가지(종료)를 추가한다.
  • 모든 종료 지점에 대한 공동 가중 손실을 사용하여 네트워크를 학습하고 종료-특정 분류기를 최적화한다.
  • 추론 중 각 종료점에서 소프트맥스와 엔트로피를 계산하고 학습된 임계값 이하일 때 종료한다.
  • BranchyNet 학습에 Adam 최적화를 사용한다.
  • LeNet, AlexNet 및 ResNet을 BranchyNet 변형으로 적용하고 MNIST와 CIFAR-10에서 평가하여 성능을 시연한다.

실험 결과

연구 질문

  • RQ1BranchyNet의 조기 종료 분기를 통해 정확도를 해치지 않으면서 추론 지연 시간과 에너지 소비를 줄일 수 있는가?
  • RQ2다른 네트워크와 데이터셋에 대해 속도와 정확도의 균형을 맞추려면 종료 임계값과 분기 위치를 어떻게 선택해야 하는가?
  • RQ3종료 분류기의 공동 학습이 개별적으로 학습하는 것과 비교해 전체 성능을 향상시키는가?
  • RQ4가지 특성(깊이/너비) 및 임계값 설정이 최종 정확도와 속도향상에 미치는 영향은 무엇인가?

주요 결과

  • BranchyNet은 테스트된 네트워크에서 정확도는 유지하거나 약간 향상시키면서 상당한 추론 속도 향상을 달성한다.
  • B-LeNet exits about 94% of samples at the first exit, yielding around 5.4x speedup on CPU and 4.7x on GPU.
  • B-AlexNet exits about 65.6% of samples at the first exit and 25.2% at the second, with overall ~1.5x speedup on CPU and ~2.4x on GPU.
  • B-ResNet exits about 41.5% at the first exit, 13.8% at the second, and 44.7% at the third, achieving roughly 1.9x speedup on both CPU and GPU.
  • Across networks, BranchyNet generally outperforms the baseline in accuracy while reducing inference time, with knee points identified where accuracy is preserved and speedup maximized.
  • Joint optimization of exit losses provides regularization and helps mitigate vanishing gradients, improving lower-layer discriminative power.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.