QUICK REVIEW

[논문 리뷰] The Early Phase of Neural Network Training

Jonathan Frankle, David J. Schwab|arXiv (Cornell University)|2020. 02. 24.

Stochastic Gradient Optimization Techniques참고 문헌 20인용 수 50

한 줄 요약

본 논문은 iterative magnitude pruning with rewinding (IMP)을 사용하여 깊은 네트워크의 매우 초기 학습 단계에서 가중치 변화, 강건성, 데이터 의존성을 정량화하고, 초기 변화가 라벨에 의해서만 발생하는 것이 아니며 심지어 더 깊은 네트워크에서 부호만으로는 충분하지 않다는 것을 보입니다. 또한 자기 지도 학습 과제나 흐릿한 입력으로의 사전 학습이 초기 단계의 변화를 근사할 수 있음을 보여주며, 이러한 변화가 본질적으로 라벨 의존적이지 않다는 시사점을 제공합니다.

ABSTRACT

Recent studies have shown that many important aspects of neural network learning take place within the very earliest iterations or epochs of training. For example, sparse, trainable sub-networks emerge (Frankle et al., 2019), gradient descent moves into a small subspace (Gur-Ari et al., 2018), and the network undergoes a critical period (Achille et al., 2019). Here, we examine the changes that deep neural networks undergo during this early phase of training. We perform extensive measurements of the network state during these early iterations of training and leverage the framework of Frankle et al. (2019) to quantitatively probe the weight distribution and its reliance on various aspects of the dataset. We find that, within this framework, deep networks are not robust to reinitializing with random weights while maintaining signs, and that weight distributions are highly non-independent even after only a few hundred iterations. Despite this behavior, pre-training with blurred inputs or an auxiliary self-supervised task can approximate the changes in supervised networks, suggesting that these changes are not inherently label-dependent, though labels significantly accelerate this process. Together, these results help to elucidate the network changes occurring during this pivotal initial period of learning.

연구 동기 및 목표

다양한 아키텍처에 걸쳐 CIFAR-10에서 학습의 처음 4,000 이터레이션 동안 신경망의 상태를 특성화한다.
초기 학습 가중치에 대한 섭동이 최종 성능에 영향을 미치는 정도를 부호/크기 변화 및 순열 불변성을 포함하여 정량화한다.
레이블 기반 학습의 대체로 자가 지도 학습(pre-training) 및 흐릿한 입력의 사전 학습을 테스트하여 초기 학습의 데이터 의존성을 평가한다.
로터리 티켓 가설에 대한 시사점을 탐구하기 위해 늦은 리와인딩의 필요성과 초기 가중치 분포의 비독립성의 여부를 검토한다.

제안 방법

IMP를 사용하여 다양한 초기 학습 지점에서 희소 서브네트워크를 추출한다.
네트워크를 수렴시킨 뒤 가중치의 20%를 크기에 따라 가지런히 제거하고, 나머지 부분은 이전 이터레이션 k의 값으로 되감아준다.
노이즈를 추가하거나 가중치를 재배열하거나 구성 요소 내에서 섞는 방식으로 초기 상태의 네트워크를 체계적으로 섭동하여 강건성을 탐색한다.
가중치 부호와 분포의 중요성을 평가하기 위해 고스파크 희소성에서 섹션된 서브네트워크의 성능을 측정한다.
사소한 노이즈 모델과의 비교를 통해 효과가 노이즈 주도인지 구조 주도인지 판단한다.
레이블 기반 학습 전에 무작위 레이블, 자기 지도 회전 작업, 또는 흐릿한 입력으로 사전 학습하여 데이터 의존성을 평가한다.

실험 결과

연구 질문

RQ1공통적인 CNN 아키텍처에서 매우 초기 학습 단계에서 네트워크 가중치와 그래디언트가 어떻게 진화하는가?
RQ2초기 단계의 가중치 변화와 분포가 부호/크기 교환이나 가중치 재배열과 같은 섭동에 대해 강건한가?
RQ3초기 단계의 학습을 비레이블 정보(자가 지도 사전 학습, 흐릿한 입력)으로 근사할 수 있으며 이것이 IMP 리와인딩에 어떤 영향을 미치는가?
RQ4초기 학습 다이내믹스와 희소 서브네트워크의 성공에 있어 데이터 분포 p(x) 대 라벨 p(y|x)의 역할은 무엇인가?

주요 결과

초기 학습은 세 가지 하위 단계로 나타나며, 큰 초기 그래디언트가 먼저 나타난 후 그래디언트 크기가 약 200 이터레이션 근처에서 최솟값을 찍고, 이후 500 이터레이션 쪽으로 점진적으로 안정화된다.
더 깊은 네트워크는 부호를 유지한 상태에서 무작위 가중치 재초기화에 대해 강건하지 않으며, 초기 가중치 분포는 몇 백 이터레이션 이후에도 여전히 비독립적(i.i.d.가 아님)이다.
한 시점의 부호를 다른 시점의 크기와 결합하는 등의 섭동은 성능을 저하시킬 수 있어, 초기 학습에서 크기가 부호보다 더 큰 영향을 미친다는 것을 시사한다; 이후 리와인딩의 부호 역시 재배열 후 회복에 영향을 준다.
전역 구조나 계층 내에서 가중치를 재배열하는 것은 성능에 큰 손상을 주며, 가중치가 독립적으로 분포하지 않으며 구조적 조직에 민감하다는 것을 시사한다.
가우시안 가감 노이즈는 중간 수준의 노이즈를 허용하나 특정 강도 이상의 섭동은 정확도를 감소시키므로 효과가 순전히 노이즈 때문은 아님을 보여준다.
자기 지도 사전 학습(회전 작업)은 IMP 리와인딩으로 초기 단계의 변화를 근사할 수 있지만 감독 학습 리와인딩의 약 32배에 이르는 에포크가 필요하므로 라벨은 학습을 가속하지만 필수적이지는 않다.
흐릿한 입력으로의 사전 학습도 유사하게 초기 단계의 변화를 근사할 수 있으며, 흐릿한 입력과 회전을 함께 사용하는 경우 일부 아키텍처에서 필요한 정보 함량이 지나치게 크게 감소하나 네트워크에 따라 효과가 다르게 나타난다(VGG-13 등).

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.