[논문 리뷰] Drawing Early-Bird Tickets: Toward More Efficient Training of Deep Networks
이 논문은 초기에 학습을 시작하는 순간부터 저비용 방법(예: 조기 정지 및 높은 학습률에서의 저정밀도 학습)을 통해 식별할 수 있는 임계 하위망구조인 이른 새의 표표(EB 티켓)를 소개한다. 새로운 마스크 거리 측도를 활용해 전체 학습 없이도 EB 티켓을 효율적으로 탐지할 수 있으며, 이로 인해 에너지 소비를 최대 4.7배 절감하면서도 모델 정확도를 유지하거나 향상시킬 수 있다.
(Frankle & Carbin, 2019) shows that there exist winning tickets (small but critical subnetworks) for dense, randomly initialized networks, that can be trained alone to achieve comparable accuracies to the latter in a similar number of iterations. However, the identification of these winning tickets still requires the costly train-prune-retrain process, limiting their practical benefits. In this paper, we discover for the first time that the winning tickets can be identified at the very early training stage, which we term as early-bird (EB) tickets, via low-cost training schemes (e.g., early stopping and low-precision training) at large learning rates. Our finding of EB tickets is consistent with recently reported observations that the key connectivity patterns of neural networks emerge early. Furthermore, we propose a mask distance metric that can be used to identify EB tickets with low computational overhead, without needing to know the true winning tickets that emerge after the full training. Finally, we leverage the existence of EB tickets and the proposed mask distance to develop efficient training methods, which are achieved by first identifying EB tickets via low-cost schemes, and then continuing to train merely the EB tickets towards the target accuracy. Experiments based on various deep networks and datasets validate: 1) the existence of EB tickets, and the effectiveness of mask distance in efficiently identifying them; and 2) that the proposed efficient training via EB tickets can achieve up to 4.7x energy savings while maintaining comparable or even better accuracy, demonstrating a promising and easily adopted method for tackling cost-prohibitive deep network training.
연구 동기 및 목표
- 표준적인 훈련-자르기-재훈련 과정을 통해 승리 티켓을 식별하는 데 드는 높은 계산 비용을 해결하기 위해.
- 승리 티켓인 임계 하위망구조가 전체 수렴 이전에 학습 초기 단계에서 발견될 수 있는지 조사하기 위해.
- 최종 승리 티켓에 대한 사전 지식 없이도 이러한 이른 하위망구조를 저비용으로 식별하는 방법을 개발하기 위해.
- 전체 네트워크 재훈련을 피하고 식별된 이른 새의 표표에만 집중함으로써 효율적인 훈련을 가능하게 하기 위해.
제안 방법
- 훈련의 매우 초기 단계에서 독립적으로 훈련했을 때 높은 정확도를 달성하는 하위망구조로, 이른 새의 표표(EB 티켓)를 제안한다.
- 조기 정지 및 높은 학습률에서의 저정밀도 학습과 같은 저비용 훈련 기법을 사용해 EB 티켓을 효율적으로 식별한다.
- 훈련 단계 간의 하위망구조 구조를 비교하기 위해 마스크 거리 측도를 도입하여, 최종 승리 티켓의 지식 없이도 EB 티켓을 탐지할 수 있도록 한다.
- 마스크 거리 측도를 적용해 초기에 가장 유망한 하위망구조를 선별한 후, 목표 정확도에 도달할 때까지 해당 하위망구조만 계속 훈련시킨다.
- 식별된 EB 티켓을 활용해 전체 네트워크 재훈련 없이도 효율적인 훈련을 수행한다.
실험 결과
연구 질문
- RQ1승리 티켓은 전체 수렴 이전에 학습의 매우 초기 단계에서 식별될 수 있는가?
- RQ2조기 정지 및 높은 학습률에서의 저정밀도 학습과 같은 저비용 훈련 기법이 임계 하위망구조의 조기 탐지를 가능하게 하는가?
- RQ3최종 승리 티켓의 지식 없이도 마스크 거리 측도가 EB 티켓을 신뢰성 있게 식별할 수 있는가?
- RQ4식별된 EB 티켓에만 집중해 훈련을 수행하면 에너지 소비와 계산 비용을 크게 줄이며 비교적 높은 정확도를 달성할 수 있는가?
주요 결과
- 이른 새의 표표가 존재하며, 조기 정지 및 높은 학습률에서의 저정밀도 학습과 같은 저비용 훈련 기법을 통해 식별할 수 있다.
- 제안된 마스크 거리 측도를 통해 최종 승리 티켓이 필요 없이도 낮은 계산 오버헤드로 정확한 EB 티켓 식별이 가능하다.
- 표준 훈련 방식과 비교해 최대 4.7배의 에너지 절감을 달성하면서도 모델 정확도를 유지하거나 향상시킬 수 있다.
- 다양한 딥 네트워크와 데이터셋에서의 실험을 통해 EB 티켓과 마스크 거리 측도의 효과가 다양한 아키텍처와 작업 전반에 걸쳐 확인되었다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.