Skip to main content
QUICK REVIEW

[논문 리뷰] Improved Techniques for Training Adaptive Deep Networks

Hao Li, Hong Zhang|arXiv (Cornell University)|2019. 08. 17.
Advanced Neural Network Applications참고 문헌 26인용 수 19
한 줄 요약

이 논문은 다중 중간 분류기와 함께 적응형 딥 네트워크의 훈련 효율성을 향상시키기 위해 세 가지 훈련 기법—기울기 균형(GE), 인라인 서브넷 협업(ISC), 온포어즈 지식 증류(OFA)—을 제안한다. 이 방법들은 훈련을 안정화시키고 분류기 간 협업을 향상시키며, CIFAR-10, CIFAR-100, ImageNet에서 일관되게 정확도와 추론 효율성을 향상시킨다. 유사한 FLOP 제약 조건 하에서 최신 기술을 6% 이상 뛰어넘는 성능을 기록한다.

ABSTRACT

Adaptive inference is a promising technique to improve the computational efficiency of deep models at test time. In contrast to static models which use the same computation graph for all instances, adaptive networks can dynamically adjust their structure conditioned on each input. While existing research on adaptive inference mainly focuses on designing more advanced architectures, this paper investigates how to train such networks more effectively. Specifically, we consider a typical adaptive deep network with multiple intermediate classifiers. We present three techniques to improve its training efficacy from two aspects: 1) a Gradient Equilibrium algorithm to resolve the conflict of learning of different classifiers; 2) an Inline Subnetwork Collaboration approach and a One-for-all Knowledge Distillation algorithm to enhance the collaboration among classifiers. On multiple datasets (CIFAR-10, CIFAR-100 and ImageNet), we show that the proposed approach consistently leads to further improved efficiency on top of state-of-the-art adaptive deep networks.

연구 동기 및 목표

  • 다중 중간 분류기를 갖는 적응형 딥 네트워크에서 발생하는 불안정하고 상충되는 훈련 동역학 문제를 해결하기 위해.
  • 다중 출구 네트워크에서 분류기 간 협업을 향상시켜 종합 성능을 개선하기 위해.
  • 다양한 데이터셋과 모델 아키텍처에 효과적이면서 추론 효율성을 훼손하지 않는 훈련 기법을 개발하기 위해.
  • 기울기 흐름을 안정화하고 지식 전이를 향상시켜 적응형 추론에서 더 나은 정확도-속도 트레이드오프를 실현하기 위해.

제안 방법

  • 기울기 균형(GE)은 역전파 중 기울기를 재스케일링하여 네트워크 전반에서 기울기 크기를 일정하게 유지함으로써 분산을 줄이고 훈련을 안정화시킨다.
  • 인라인 서브넷 협업(ISC)은 이전 분류기의 로짓을 사전 지식으로 활용하여 후속 분류기를 안내함으로써 출구 간 일관성과 협업을 향상시킨다.
  • 온포어즈 지식 증류(OFA)는 최종 분류기를 교사로 삼아 이전 분류기에 지식을 증류함으로써 성능을 향상시킨다.
  • 이 기법들은 MSDNet과 같은 다중 출구 아키텍처에 적용되어 입력의 난이도에 따라 동적으로 조기 출구 추론을 가능하게 한다.
  • 표준 교차 엔트로피 손실을 사용하며, 제안된 모듈을 잔차 블록에 통합하여 훈련을 최적화한다.
  • CIFAR-10, CIFAR-100, ImageNet에서 평가되었으며, 구성 요소 기여도를 분리하기 위한 추론 분석도 실시되었다.

실험 결과

연구 질문

  • RQ1적응형 네트워크의 다중 분류기 간 기울기 갈등은 훈련 중 어떻게 완화될 수 있는가?
  • RQ2중간 분류기 간 협업은 적응형 딥 네트워크의 성능 향상에 어느 정도 기여하는가?
  • RQ3최종 분류기로부터의 지식 증류는 추론 비용을 증가시키지 않고도 이른 출구의 정확도를 향상시킬 수 있는가?
  • RQ4제안된 기법들은 다양한 네트워크 깊이와 데이터셋에서 어떻게 스케일링되는가?

주요 결과

  • 제안된 방법은 ImageNet에서 약 1×10⁸ FLOPs의 계산 예산 하에서 기준 모델인 MSDNet보다 정확도를 6% 이상 향상시켰다.
  • CIFAR-100에서 전체 모델은 스테이지 2에서 4까지의 Top-1 정확도에서 기준 모델보다 1% 이상 향상되었으며, 더 깊은 층에서는 1.4% 이상의 향상이 이루어졌다.
  • 기울기 균형은 훈련을 크게 안정화시켜 테스트된 모든 네트워크 깊이에서 일관되게 높은 검증 정확도와 낮은 손실을 기록했다.
  • 인라인 서브넷 협업은 신뢰도 순서의 일관성을 높였으며, 이는 신뢰도 순서 플롯에서 더 두꺼운 군집화로 나타났다.
  • 온포어즈 지식 증류는 초기 분류기에서 가장 큰 정확도 향상을 제공하여 최종 분류기로부터의 증류가 효과적임을 확인했다.
  • 추론 분석 결과, GE, ISC, OFA 세 구성 요소 모두 CIFAR-100과 ImageNet에서 긍정적이고 일관된 기여를 했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.