Skip to main content
QUICK REVIEW

[논문 리뷰] Drawing Early-Bird Tickets: Towards More Efficient Training of Deep Networks

Haoran You, Chaojian Li|arXiv (Cornell University)|2019. 09. 26.
Advanced Neural Network Applications참고 문헌 42인용 수 50
한 줄 요약

논문은 초기 훈련에서 매우 이르게 승리 티켓(Early-Bird 티켓)을 저비용 훈련과 마스크-거리 메트릭으로 식별할 수 있음을 밝히고, 동일하거나 더 나은 정확도와 함께 상당한 에너지 절감을 가진 EB Train을 도입한다.

ABSTRACT

(Frankle & Carbin, 2019) shows that there exist winning tickets (small but critical subnetworks) for dense, randomly initialized networks, that can be trained alone to achieve comparable accuracies to the latter in a similar number of iterations. However, the identification of these winning tickets still requires the costly train-prune-retrain process, limiting their practical benefits. In this paper, we discover for the first time that the winning tickets can be identified at the very early training stage, which we term as early-bird (EB) tickets, via low-cost training schemes (e.g., early stopping and low-precision training) at large learning rates. Our finding of EB tickets is consistent with recently reported observations that the key connectivity patterns of neural networks emerge early. Furthermore, we propose a mask distance metric that can be used to identify EB tickets with low computational overhead, without needing to know the true winning tickets that emerge after the full training. Finally, we leverage the existence of EB tickets and the proposed mask distance to develop efficient training methods, which are achieved by first identifying EB tickets via low-cost schemes, and then continuing to train merely the EB tickets towards the target accuracy. Experiments based on various deep networks and datasets validate: 1) the existence of EB tickets, and the effectiveness of mask distance in efficiently identifying them; and 2) that the proposed efficient training via EB tickets can achieve up to 4.7x energy savings while maintaining comparable or even better accuracy, demonstrating a promising and easily adopted method for tackling cost-prohibitive deep network training. Code available at https://github.com/RICE-EIC/Early-Bird-Tickets.

연구 동기 및 목표

  • 모델과 데이터 세트 전반에서 빠르게 나타나는 Early-Bird (EB) 티켓의 존재를 demonstrat e한다.
  • EB 티켓이 저비용 훈련 체계와 실용적인 마스크-거리 메트릭으로 식별될 수 있음을 보인다.
  • EB 티켓을 활용하여 훈련 에너지와 FLOPs를 줄이면서 정확도를 유지하는 훈련 프레임워크인 EB Train을 개발한다.
  • CIFAR 및 ImageNet에서 EB Train을 최첨단 가지치기 기반 훈련 방법과 비교 평가한다.
  • 높은 학습률과 저정밀도 훈련이 EB 티켓의 등장에 미치는 영향에 대한 통찰을 제공한다.
  • method3-6 bullet points on the proposed method (key techniques, core equations)

제안 방법

  • EB 티켓을 PRUNED 마스크에서 t << i까지 훈련되었을 때 Dense 모델의 정확도와 같거나 더 잘 맞추는 서브네트워크로 정의한다.
  • BN 스케일링 팩터와 이진 마스크 m에 기반한 채널별 가지치를 사용하여 초기에 Dense 네트워크를 가지치기한다.
  • EB 티켓의 등장 여부를 탐지하기 위해 티켓 마스크 간의 해밍 거리(Hamming distance)라는 마스크-거리 메트릭을 도입한다.
  • 최근 거리들이 임계값 ε(예: 0.1) 아래로 떨어지는 경우 EB 티켓 식별을 트리거하는 마스크 거리의 FIFO 큐를 사용한다.
  • EB Train 구현: (a) 저비용 훈련(높은 학습률 및 검색 시 8비트 정밀도 포함)을 통해 EB 티켓을 탐색, (b) EB 티켓만 재훈련하여 목표 정확도 달성.
  • EB Train 변형 비교: FF(전체 정밀도 검색/재훈련), 재초기화, LF(저정밀도 검색, 전체 재훈련), LL(저정밀도 검색/재훈련).
  • CIFAR-10/100, ImageNet에서 PreResNet101, VGG16, ResNet18/50으로 에너지 및 FLOPs 절감 시연.
  • EB 티켓 가중치 상속(초기화 재설정 vs 상속된 EB 티크 weights)으로 재훈련 성능이 개선되며 EB 티켓 접근이 무작위 재초기화보다 우수하다는 이점이 관찰된다.

실험 결과

연구 질문

  • RQ1EB 티켓은 일반적인 모델과 데이터셋에서 일관되게 나타나는가?
  • RQ2전체 훈련 없이도 저비용 훈련과 마스크-거리 메트릭으로 EB 티켓을 안정적으로 식별할 수 있는가?
  • RQ3EB Train에서 EB 티켓만 훈련하였을 때 전통적인 가지치기/재훈련에 비해 상당한 에너지/FLOPs 절감과 유의미한 정확도 확보가 가능한가?
  • RQ4높은 학습률과 저정밀도 훈련이 EB 티켓의 등장 및 활용에 어떤 영향을 미치는가?
  • RQ5ImageNet과 같은 대규모 데이터셋 및 ResNet 변형에서 EB Train은 최첨단 기준선과 비교하여 어떤 성능을 보이는가?

주요 결과

  • EB 티켓은 상당히 이르게(160 에포크 중 20 에포크처럼 이르게) 등장하며, 전체 훈련에서 뽑힌 티켓보다 더 우수하게 작동할 수 있다.
  • 연속 에포크 간 티켓 간의 마스크-거리는 조기에 안정화되며, 창(window)에서 최대 거리가 ε(0.1) 아래로 떨어지면 EB 티켓이 식별된다.
  • CIFAR에서 PreResNet101/VGG16으로 baselines 대비 2.2–2.4배의 FLOPs 절감을 달성하되 비슷하거나 더 나은 정확도 제공.
  • 저정밀도 검색/재훈련(FP8/8비트)을 사용하는 EB Train은 다수 설정에서 5.8–24.6배의 에너지 절감 및 1.1–5.0배의 FLOPs 절감을 달성하면서 정확도를 유지하거나 향상시킨다.
  • ImageNet(ResNet18/50)에서 EB Train은 훈련 FLOPs를 51.5–74.0% 감소시키고 훈련 에너지를 46.5–70.9% 감소시키며 일부 구성에서 최대 +2.34%의 정확도 향상을 보여준다.
  • 초기화 재설정 vs 상속 EB 티켓 가중치의 초기화 상태 상속 여부가 재훈련 성능에 이점을 주며 EB 티켓 방식이 무작위 재초기화보다 우수하다는 점을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.