QUICK REVIEW

[논문 리뷰] The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks

Jonathan Frankle, Michael Carbin|arXiv (Cornell University)|2018. 03. 09.

Adversarial Robustness in Machine Learning참고 문헌 64인용 수 1,319

한 줄 요약

논문은 밀집 신경망이 드문 서브네트워크(당선 티켓)를 포함하고 있으며, 이들을 원래 값으로 초기화하고 처음부터 학습하면 비슷한 반복에서 원래의 정확도에 도달할 수 있으며, 종종 매개변수의 10–20% 정도에서 가능하다.

ABSTRACT

Neural network pruning techniques can reduce the parameter counts of trained networks by over 90%, decreasing storage requirements and improving computational performance of inference without compromising accuracy. However, contemporary experience is that the sparse architectures produced by pruning are difficult to train from the start, which would similarly improve training performance. We find that a standard pruning technique naturally uncovers subnetworks whose initializations made them capable of training effectively. Based on these results, we articulate the "lottery ticket hypothesis:" dense, randomly-initialized, feed-forward networks contain subnetworks ("winning tickets") that - when trained in isolation - reach test accuracy comparable to the original network in a similar number of iterations. The winning tickets we find have won the initialization lottery: their connections have initial weights that make training particularly effective. We present an algorithm to identify winning tickets and a series of experiments that support the lottery ticket hypothesis and the importance of these fortuitous initializations. We consistently find winning tickets that are less than 10-20% of the size of several fully-connected and convolutional feed-forward architectures for MNIST and CIFAR10. Above this size, the winning tickets that we find learn faster than the original network and reach higher test accuracy.

연구 동기 및 목표

훈련 효율성 및 추론을 위해 pruning 친화적 희소 아키텍처가 바람직한 이유를 동기화한다.
희소 서브네트워크가 원래 초기화에서 학습되어 비슷한 성능을 달성할 수 있는지 여부를 테스트한다.
반복 가지치기를 사용하여 MNIST와 CIFAR-10에서 당선 티켓을 경험적으로 식별한다.
초기화, 희소성 및 아키텍처가 당선 티켓의 학습 가능성 및 일반화에 어떤 영향을 미치는지 평가한다.

제안 방법

밀집 네트워크를 학습시키고, 가장 작은 규모의 가중치를 가지치고, 생존 가중치를 초기 값으로 재설정하여 당선 티켓을 형성한다.
남아 있는 가중치의 일부를 n라운드에 걸쳐 fraction p^(1/n)로 반복 가지치기하여 더 작은 당선 티켓을 찾아낸다.
SGD/모멘텀/Adam 하에서 당선 티켓의 학습 역학 및 검증 정확도를 원래 네트워크와 비교한다.
MNIST와 CIFAR-10에서 완전 연결 및 컨벌루션 아키텍처를 모두 평가한다.
당선 티켓을 재초기화할 때 무작위 초기화로 재설정하고 성능을 관찰하여 초기화의 중요성을 테스트한다.

실험 결과

연구 질문

RQ1무작위로 초기화된 밀집 네트워크 내에 훈련될 수 있어 전체 네트워크와 비슷한 정확도에 이를 수 있는 희소 서브네트워크가 존재하는가?
RQ2일반 가지치기와 한 번에 가지치는 방식이 당선 티켓의 크기와 성능에 어떤 영향을 미치는가?
RQ3당선 티켓의 성공에서 초기화와 네트워크 구조의 역할은 무엇인가?
RQ4특정 희소도에서 당선 티켓은 원래 네트워크보다 일반화가 더 잘 되는가?

주요 결과

당선 티켓은 원래 매개변수 수의 10–20%에서 존재하며, 비슷한 훈련 반복에서 검증 정확도를 달성하거나 능가할 수 있다.
반복 가지치기는 더 작은 당선 티켓을 찾아내어 더 빠르게 학습하고 종종 원래 네트워크보다 높은 검정 정확도를 달성한다.
당선 티켓의 가중치를 무작위로 재초기화하면 성능이 저하되며, 초기화의 중요성을 강조한다.
당선 티켓은 특정 희소도에서 학습과 테스트 정확도 간의 차이가 줄어들며 일반화가 향상되는 경향이 있다.
이 현상은 여러 아키텍처(Lenet, Conv-2/4/6, VGG-19, ResNet-18) 및 옵티마이저에서 관찰되며, 학습 속도에 따라 초기 학습률과 워밍업이 특히 깊은 네트에서 성공에 영향을 줄 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.