[논문 리뷰] Proving the Lottery Ticket Hypothesis: Pruning is All You Need
이 논문은 로터리 티켓 가설의 더 강한 버전을 증명한다: 충분히 과다 매개변수화된 무작위 가중치를 갖는 네트워크에서, 학습 없이도 경계값을 갖는 타깃 네트워크와 일치하는 서브네트워크가 존재한다.
The lottery ticket hypothesis (Frankle and Carbin, 2018), states that a randomly-initialized network contains a small subnetwork such that, when trained in isolation, can compete with the performance of the original network. We prove an even stronger hypothesis (as was also conjectured in Ramanujan et al., 2019), showing that for every bounded distribution and every target network with bounded weights, a sufficiently over-parameterized neural network with random weights contains a subnetwork with roughly the same accuracy as the target network, without any further training.
연구 동기 및 목표
- 손실을 최소화하면서 모델을 압축하는 수단으로 신경망 가지치기를 고무한다.
- 이론적으로 무작위로 과다 매개변수화된 네트워크가 경계값을 갖는 타깃 네트워크를 근사하는 서브네트워크를 포함하고 있음을 입증한다.
- 가중치 서브네트워크와 뉴런 서브네트워크를 구분하고 그 표현력을 분석한다.
제안 방법
- 가중치 서브네트워크를 사용하여 충분한 너비를 가진 depth-2l 임의 네트워크를 가지치기함으로써 depth-l 네트워크를 근사할 수 있음을 보인다.
- 얕은 depth-two 네트워크가 뉴런 서브네트워크를 통해 최적의 임의 특징 분류기와 경쟁력이 있음을 보인다.
- 가지치기를 통해 ReLU 네트워크의 근사를 보여주는 구성들을 제시하고, 활성 가중치의 수를 타깃 매개변수의 함수로 양화한다.
- 깊이 2 타깃에 대해 더 강한 결과를 증명하는데, 깊이 3 무작위 네트워크가 근사에 충분하다는 것이다.
실험 결과
연구 질문
- RQ1충분히 과다 매개변수화된 무작위 네트워크가 학습 없이도 경계값을 갖는 타깃 네트워크를 근사하는 서브네트워크를 포함할 수 있는가?
- RQ2타깃 네트워크를 근사하는 데 있어 가중치 서브네트워크와 뉴런 서브네트워크의 비교 가능한 능력은 어떠한가?
- RQ3가지치기가 보편 근사 능력 측면에서 임의 특징과 어떤 관련이 있는가?
- RQ4무작위 네트워크를 가지치할 때 학습 및 계산 복잡도 측면의 시사점은 무엇인가?
주요 결과
- 깊이 l의 ReLU 네트워크는 깊이 2l의 무작위 네트워크를 다항 폭으로 가지치기하여 근사할 수 있다.
- 깊이-2 타깃의 경우, O(dn) 활성 가중치를 가진 가중치 서브네트워크를 통해 타깃을 근사하기에 무작위 3층 네트워크가 충분하다.
- 가중치 서브네트워크는 상수 배수 차이를 대체로 두고 타깃 네트워크와 유사한 매개변수 수로 근사를 달성한다.
- 뉴런 서브네트워크는 임의 특징과 경쟁력이 있으며, 완만한 조건 하에 뉴런 가지치기와 임의 특징 모델 간의 등가를 확립한다.
- 가지치기는 보편 근사 능력을 제공하고, 조밀한 네트워크 학습에 대해 알려진 계산 복잡도 결과를 반영한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.