Skip to main content
QUICK REVIEW

[논문 리뷰] Zero Time Waste: Recycling Predictions in Early Exit Neural Networks

Maciej Wołczyk, Bartosz Wójcik|arXiv (Cornell University)|2021. 06. 09.
Machine Learning and Data Classification참고 문헌 40인용 수 30
한 줄 요약

제로 타임 웨이스트(ZTW)를 도입하는 조기 종료 프레임워크로, cascade 연결 및 앙상블을 통해 이전 내부 분류기의 예측을 재사용하여 추론 시 낭비되는 계산을 줄이고 정확도-시간의 트레이드오프를 개선한다.

ABSTRACT

The problem of reducing processing time of large deep learning models is a fundamental challenge in many real-world applications. Early exit methods strive towards this goal by attaching additional Internal Classifiers (ICs) to intermediate layers of a neural network. ICs can quickly return predictions for easy examples and, as a result, reduce the average inference time of the whole model. However, if a particular IC does not decide to return an answer early, its predictions are discarded, with its computations effectively being wasted. To solve this issue, we introduce Zero Time Waste (ZTW), a novel approach in which each IC reuses predictions returned by its predecessors by (1) adding direct connections between ICs and (2) combining previous outputs in an ensemble-like manner. We conduct extensive experiments across various datasets and architectures to demonstrate that ZTW achieves a significantly better accuracy vs. inference time trade-off than other recently proposed early exit methods.

연구 동기 및 목표

  • 이전 내부 분류기로부터 재활용된 정보를 활용하여 신경망 추론 낭비를 줄이는 것을 동기화한다.
  • 과거 예측을 재사용하기 위해 cascade 연결과 앙상블 방법을 연결하는 제로-웨이스트 프레임워크를 제안한다.
  • 표준 분류기와 강화학습 설정 전반에서 추론 시간 대비 정확도 트레이드오프가 개선됨을 시연한다.
  • 새로운 지표(Hindsight Improvability)로 정보 재사용을 정량화하고, 기여 인자를 이해하기 위한 ablation을 제시한다.

제안 방법

  • 기본 매개변수를 변경하지 않고 사전 학습된 네트워크의 중간 계층에 M개의 얕은 내부 분류기(ICs)를 부착한다.
  • 이전 IC로부터 로짓을 스킵 연결을 통해 이후 IC로 전달하여, 이후 IC가 이전 예측을 정제하도록 cascade 연결을 사용한다.
  • 가중 기하 평균을 사용하고 클래스 균형을 통해 각 IC의 최종 예측을 형성하기 위해 IC 출력의 앙상블을 구성하며, 교차 엔트로피를 최소화하도록 가중치를 학습한다.
  • cascade 입력과 함께 IC를 병렬로 학습하되, 더 뒤의 손실로부터 앞 IC에 대한 그래디언트를 차단하여 초기 층 표현을 보존한다.
  • 추론 중 현재 IC의 앙상블 신뢰도가 임계값 τ를 초과하면 조기 중단하여 정확도와 계산을 균형화한다.
  • 공동 cascade 및 기하적 앙상블 학습을 위한 학습 알고리즘(Algorithm 1)을 제공한다.

실험 결과

연구 질문

  • RQ1이전 IC의 정보를 효과적으로 재사용하여 기반 네트워크를 재학습하지 않고도 이후 IC를 개선할 수 있을까?
  • RQ2cascade 연결과 기하학적 앙상블의 조합이 데이터셋과 아키텍처 전반에서 정확도를 유지하거나 향상시키면서 계산 낭비를 줄일까?
  • RQ3감독 학습과 강화학습 설정에서 ZTW의 성능은 어떠한가?
  • RQ4SDN 및 PBEE에 비해 정보 재사용이 효율-정확도 트레이드오프에 미치는 영향은 무엇인가?

주요 결과

  • ZTW는 CIFAR-10/100, Tiny ImageNet, ImageNet에서 다양한 아키텍처를 대상으로 SDN 및 PBEE보다 추론 시간 트레이드오프에서 더 나은 정확도를 달성한다.
  • cascade 연결을 통한 과거 IC 정보 재사용은 주로 초기 IC 성능을 향상시키고, 앙상블은 이후 IC 성능을 개선한다.
  • ZTW는 계산량을 감소시키면서 기본 네트워크의 정확도를 유지하고, 일부 설정에서 기본 네트워크를 능가하기도 한다.
  • RL에서 ZTW는 신뢰도 기반 조기 종료를 통해 계산을 줄이면서 Atari 2600 환경에서 정책 성능을 유지한다.
  • 제안된 Hindsight Improvability 지표는 과거 정보 재사용에서 얻을 수 있는 잠재적 정확도 이득의 정도를 보여주며, 이 지표에서 ZTW는 독립 IC 기준선보다 우수하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.