QUICK REVIEW

[논문 리뷰] Zero Time Waste: Recycling Predictions in Early Exit Neural Networks

Maciej Wołczyk, Bartosz Wójcik|arXiv (Cornell University)|2021. 06. 09.

Machine Learning and Data Classification참고 문헌 40인용 수 30

한 줄 요약

제로 타임 웨이스트(ZTW)를 도입하는 조기 종료 프레임워크로, cascade 연결 및 앙상블을 통해 이전 내부 분류기의 예측을 재사용하여 추론 시 낭비되는 계산을 줄이고 정확도-시간의 트레이드오프를 개선한다.

ABSTRACT

The problem of reducing processing time of large deep learning models is a fundamental challenge in many real-world applications. Early exit methods strive towards this goal by attaching additional Internal Classifiers (ICs) to intermediate layers of a neural network. ICs can quickly return predictions for easy examples and, as a result, reduce the average inference time of the whole model. However, if a particular IC does not decide to return an answer early, its predictions are discarded, with its computations effectively being wasted. To solve this issue, we introduce Zero Time Waste (ZTW), a novel approach in which each IC reuses predictions returned by its predecessors by (1) adding direct connections between ICs and (2) combining previous outputs in an ensemble-like manner. We conduct extensive experiments across various datasets and architectures to demonstrate that ZTW achieves a significantly better accuracy vs. inference time trade-off than other recently proposed early exit methods.

연구 동기 및 목표

이전 내부 분류기로부터 재활용된 정보를 활용하여 신경망 추론 낭비를 줄이는 것을 동기화한다.
과거 예측을 재사용하기 위해 cascade 연결과 앙상블 방법을 연결하는 제로-웨이스트 프레임워크를 제안한다.
표준 분류기와 강화학습 설정 전반에서 추론 시간 대비 정확도 트레이드오프가 개선됨을 시연한다.
새로운 지표(Hindsight Improvability)로 정보 재사용을 정량화하고, 기여 인자를 이해하기 위한 ablation을 제시한다.

제안 방법

기본 매개변수를 변경하지 않고 사전 학습된 네트워크의 중간 계층에 M개의 얕은 내부 분류기(ICs)를 부착한다.
이전 IC로부터 로짓을 스킵 연결을 통해 이후 IC로 전달하여, 이후 IC가 이전 예측을 정제하도록 cascade 연결을 사용한다.
가중 기하 평균을 사용하고 클래스 균형을 통해 각 IC의 최종 예측을 형성하기 위해 IC 출력의 앙상블을 구성하며, 교차 엔트로피를 최소화하도록 가중치를 학습한다.
cascade 입력과 함께 IC를 병렬로 학습하되, 더 뒤의 손실로부터 앞 IC에 대한 그래디언트를 차단하여 초기 층 표현을 보존한다.
추론 중 현재 IC의 앙상블 신뢰도가 임계값 τ를 초과하면 조기 중단하여 정확도와 계산을 균형화한다.
공동 cascade 및 기하적 앙상블 학습을 위한 학습 알고리즘(Algorithm 1)을 제공한다.

실험 결과

연구 질문

RQ1이전 IC의 정보를 효과적으로 재사용하여 기반 네트워크를 재학습하지 않고도 이후 IC를 개선할 수 있을까?
RQ2cascade 연결과 기하학적 앙상블의 조합이 데이터셋과 아키텍처 전반에서 정확도를 유지하거나 향상시키면서 계산 낭비를 줄일까?
RQ3감독 학습과 강화학습 설정에서 ZTW의 성능은 어떠한가?
RQ4SDN 및 PBEE에 비해 정보 재사용이 효율-정확도 트레이드오프에 미치는 영향은 무엇인가?

주요 결과

ZTW는 CIFAR-10/100, Tiny ImageNet, ImageNet에서 다양한 아키텍처를 대상으로 SDN 및 PBEE보다 추론 시간 트레이드오프에서 더 나은 정확도를 달성한다.
cascade 연결을 통한 과거 IC 정보 재사용은 주로 초기 IC 성능을 향상시키고, 앙상블은 이후 IC 성능을 개선한다.
ZTW는 계산량을 감소시키면서 기본 네트워크의 정확도를 유지하고, 일부 설정에서 기본 네트워크를 능가하기도 한다.
RL에서 ZTW는 신뢰도 기반 조기 종료를 통해 계산을 줄이면서 Atari 2600 환경에서 정책 성능을 유지한다.
제안된 Hindsight Improvability 지표는 과거 정보 재사용에서 얻을 수 있는 잠재적 정확도 이득의 정도를 보여주며, 이 지표에서 ZTW는 독립 IC 기준선보다 우수하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.