[논문 리뷰] On Lazy Training in Differentiable Programming
본 논문은 각 모델이 선형화처럼 동작하는 지 lazy training이 과초과파라미터화 그 자체보다 스케일링 선택에서 나타난다고 주장하고, 언제 발생하는지 분석하며, 실험적으로 lazy training이 비 lazy 규칙에 비해 CNN 성능을 저하시킬 수 있음을 보여준다.
In a series of recent theoretical works, it was shown that strongly over-parameterized neural networks trained with gradient-based methods could converge exponentially fast to zero training loss, with their parameters hardly varying. In this work, we show that this "lazy training" phenomenon is not specific to over-parameterized neural networks, and is due to a choice of scaling, often implicit, that makes the model behave as its linearization around the initialization, thus yielding a model equivalent to learning with positive-definite kernels. Through a theoretical analysis, we exhibit various situations where this phenomenon arises in non-convex optimization and we provide bounds on the distance between the lazy and linearized optimization paths. Our numerical experiments bring a critical note, as we observe that the performance of commonly used non-linear deep convolutional neural networks in computer vision degrades when trained in the lazy regime. This makes it unlikely that "lazy training" is behind the many successes of neural networks in difficult high dimensional tasks.
연구 동기 및 목표
- 미분가능 프로그래밍에서 lazy training 현상을 동기부여하고 정의한다.
- 스케일링과 초기화를 통해 lazy training이 발생하는 일반적인 기준을 개발한다.
- 스케일링된 모델 하의 그래디언트 흐름 역학을 분석하고 이를 선형화된 모델과 비교한다.
- 과대매개변수화 및 과소매개변수화 설정에서 lazy 규칙의 이론적 경계와 수렴 결과를 제공한다.
- synthetic 및 CNN 실험을 통해 lazy training의 실용적 함의를 평가한다.
제안 방법
- 스케일링 인자 alpha를 도입하고 목적 함수 F_alpha(w) = (1/alpha^2) R(alpha h(w))를 연구한다.
- 초기화 주변의 선형화된 모델 bar{h}(w)를 정의하고 F_alpha와 그 선형화된 바(bar{F}_alpha)를 비교한다.
- 일반적인 lazy training 기준 kappa_h(w0) = ||h(w0)-y*|| * ||D^2 h(w0)|| / ||Dh(w0)||^2를 도출하고 lazy dynamics와의 관련성을 제시한다.
- 데케직한(h) 한정에서 w_alpha(t)가 초기값 w0에 수렴하고 alpha가 커질수록 선형화 경로에 가까이 남아 있는 finite-horizon lazy training 경계를 입증한다(정리 2.2).
- 제곱손실의 정량적 경계(정리 2.3)를 제시하고 over-parameterized 및 under-parameterized 구역(정리 2.4 및 2.5)을 분석한다.
- 동일하게 동형 모델과 두 층 네트워크로의 분석을 확장하고 랜덤 특징 및 평균장(limit)과의 연계를 보인다.
실험 결과
연구 질문
- RQ1스케일된 모델의 그래디언트 기반 최적화가 초기화 주변의 선형화된 모델을 학습하는 것처럼 동작하는 조건은 무엇인가?
- RQ2초기화, 스케일링, 네트워크 아키텍처가 lazy training의 출현에 어떤 영향을 미치는가?
- RQ3over- 및 under-parameterized 구역에서 lazy training의 수렴 특성과 일반화에 대한 함의는 무엇인가?
- RQ4실용적 신경망(CNN 등)이 비 lazy 규칙에 비해 lazy 규칙에서 성능 저하를 보이는가?
- RQ5시간에 따른 lazy training dynamics와 선형화된 dynamics 사이의 거리 차이를 어떻게 한정할 수 있는가?
주요 결과
- lazy training은 초기화 시점에서 출력이 0에 가까운 거의 모든 매개변수 모델에서 implicit scaling으로 인해 발생할 수 있다.
- alpha가 충분히 크면 F_alpha의 학습 dynamics가 선형화된 모델 bar{F}_alpha의 역학에 가깝게 되어 학습이 사실상 선형적이 된다.
- 제곱 손실의 경우, 미분가능성 가정이 완화된 조건 하에서 비선형 출력과 선형화된 출력 사이의 거리가 alpha가 증가함에 따라 감소한다.
- 과대매개변수화 lazy training은 Jacobian Dh(w0)와 손실에 대한 적절한 조건하에서 전역 최적해로 수렴한다(정리 2.4).
- 과소매개변수화 lazy training은 큰 alpha일 때 국소 최적해로 수렴하여 유한 차원 설정에서 전역 최적해로부터의 정적 정체를 나타낼 수 있다(정리 2.5).
- 수치 실험은 lazy 규칙으로 학습된 CNN이 비 lazy 학습에 비해 성능이 떨어지거나 조건이 나쁠 수 있음을 시사하여 lazy training이 NN의 성공을 설명한다는 관점을 도전한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.