[논문 리뷰] Disentangling feature and lazy learning in deep neural networks: an empirical study.
이 논문은 마지막 레이어의 가중치 스케일링을 $\alpha / \sqrt{h}$로 변화시켜 깊은 신경망에서 러닝(lazy)과 특징(feature) 학습 영역 간의 전이를 경험적으로 조사한다. 이는 완전히 연결된 구조와 컨볼루션 구조 모두에서 특징 학습이 러닝 학습을 능가함을 보여주며, 넓이 $h$가 매우 클 경우 성능 격차가 줄어듦을 확인한다. 초기 조건의 변동성은 $1/\sqrt{h}$ 비례로 스케일링되며, 이는 넓이 또는 앙상블 평균화를 통해 성능 향상을 가능하게 한다.
Two distinct limits for deep learning as the net width $h o\infty$ have been proposed, depending on how the weights of the last layer scale with $h$. In the lazy-learning regime, the dynamics becomes linear in the weights and is described by a Neural Tangent Kernel $\Theta$. By contrast, in the feature-learning regime, the dynamics can be expressed in terms of the density distribution of the weights. Understanding which regime describes accurately practical architectures and which one leads to better performance remains a challenge. We answer these questions and produce new characterizations of these regimes for the MNIST data set, by considering deep nets $f$ whose last layer of weights scales as $\frac{\alpha}{\sqrt{h}}$ at initialization, where $\alpha$ is a parameter we vary. We performed systematic experiments on two setups (A) fully-connected Softplus momentum full batch and (B) convolutional ReLU momentum stochastic. We find that (1) $\alpha^*=\frac{1}{\sqrt{h}}$ separates the two regimes. (2) for (A) and (B) feature learning outperforms lazy learning, a difference in performance that decreases with $h$ and becomes hardly detectable asymptotically for (A) but is very significant for (B). (3) In both regimes, the fluctuations $\delta f$ induced by initial conditions on the learned function follow $\delta f\sim1/\sqrt{h}$, leading to a performance that increases with $h$. This improvement can be instead obtained at intermediate $h$ values by ensemble averaging different networks. (4) In the feature regime there exists a time scale $t_1\sim\alpha\sqrt{h}$, such that for $t\ll t_1$ the dynamics is linear. At $t\sim t_1$, the output has grown by a magnitude $\sqrt{h}$ and the changes of the tangent kernel $\|\Delta\Theta\|$ become significant. Ultimately, it follows $\|\Delta\Theta\|\sim(\sqrt{h}\alpha)^{-a}$ for ReLU and Softplus activation, with $a<2$ & $a o2$ when depth grows.
연구 동기 및 목표
- 딥 넷에서 러닝과 특징 학습 영역을 분리하는 임계 스케일링 $\alpha^*$를 규명하는 것.
- MNIST에서 다양한 아키텍처(완전 연결형 및 컨볼루션형)에 대해 러닝 학습과 특징 학습의 일반화 성능를 비교하는 것.
- 초기 조건의 변동성이 학습된 함수에 미치는 영향을 분석하고, 넓이 $h$가 모델 성능에 미치는 영향을 규명하는 것.
- 탄성 커널 $\Theta$의 시간적 진화와 그 변화 $\|\Delta\Theta\|$를 특징 영역에서 특성화하는 것.
제안 방법
- 두 설정에서 체계적인 실험 수행: (A) 모멘텀과 올바른 배치 학습을 사용한 완전 연결형 소프트플러스, (B) 모멘텀과 확률적 학습을 사용한 컨볼루션형 ReLU.
- 최종 레이어의 초기 가중치 스케일링을 $\alpha / \sqrt{h}$로 변화시켜 러닝과 특징 학습 영역 간 전이를 탐색하는 것.
- 학습 시간에 따른 네트워크 출력의 동역학과 신경 탄성 커널 $\Theta$의 진화를 분석하는 것.
- 초기 조건에 대한 학습된 함수의 민감도를 $\delta f$로 측정하고, 이와 넓이 $h$와의 관계를 규명하는 것.
- 네트워크가 선형 동역학에서 비선형 동역학으로 전이되는 시점인 시간 척도 $t_1 \sim \alpha\sqrt{h}$를 유도하는 것.
- ReLU 및 소프트플러스에 대해 $\|\Delta\Theta\|$의 점점 가까운 행동을 $\sim (\sqrt{h}\alpha)^{-a}$로 정량화하며, $a < 2$ 이고 깊이가 증가함에 따라 $a \to 2$가 되는 것을 규명하는 것.
실험 결과
연구 질문
- RQ1증가하는 넓이 $h$를 가진 깊은 넷에서 러닝과 특징 학습 영역을 분리하는 $\alpha$의 값은 무엇인가?
- RQ2특징 학습이 다양한 네트워크 아키텍처와 학습 설정에서 일관되게 러닝 학습을 능가하는가?
- RQ3초기 조건에 의한 학습된 함수의 변동성은 네트워크 넓이 $h$에 따라 어떻게 스케일링되는가?
- RQ4비선형 동역학이 특징 영역에서 나타나는 시점인 시간 척도 $t_1$는 무엇이며, $\alpha$와 $h$에 어떻게 의존하는가?
- RQ5탄성 커널의 변화 $\|\Delta\Theta\|$는 시간이 지남에 따라 어떻게 진화하는가? 그리고 그 점점 가까운 스케일링은 무엇인가?
주요 결과
- 임계 스케일링 $\alpha^* = 1/\sqrt{h}$가 러닝과 특징 학습 영역을 분리하며, 선형 동역학에서 비선형 동역학으로의 전이 지점을 나타낸다.
- 모든 설정(A)과 (B)에서 특징 학습이 러닝 학습을 능가하며, 넓이 $h$가 증가함에 따라 성능 격차는 점점 줄어들지만, 컨볼루션 설정(B)에서는 여전히 유의미한 격차가 유지된다.
- 모든 영역에서 초기 조건의 변동성 $\delta f$는 $1/\sqrt{h}$ 비례로 스케일링되며, 이는 넓이 증가로 성능 향상이 가능함을 의미하며, 중간 넓이에서도 앙상블 평균화로 동일한 성능 향상을 재현할 수 있다.
- 비선형 동역학의 시작을 나타내는 시간 척도 $t_1 \sim \alpha\sqrt{h}$가 존재하며, 이후 출력은 $\sqrt{h}$ 배로 증가하고 $\|\Delta\Theta\|$는 유의미해진다.
- ReLU 및 소프트플러스에 대해 탄성 커널 변화의 크기 $\|\Delta\Theta\|$는 점점 가까운 행동을 $\sim (\sqrt{h}\alpha)^{-a}$로 스케일링하며, $a < 2$ 이고 깊이가 증가함에 따라 $a \to 2$가 된다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.