[논문 리뷰] Beyond Linearization: On Quadratic and Higher-Order Approximation of Wide Neural Networks
이 논문은 초과 매개화된 2층 신경망을 2차 및 고차 테일러 항과 결합하는 무작위 학습 프레이크워크를 개발하여 NTK를 넘어서는 더 나은 최적화 지형과 일반화를 가능하게 한다. 또한 무작위화하에 유리한 지형, 일반화 및 샘플 복잡도에 대한 이론과 경계를 제공한다.
Recent theoretical work has established connections between over-parametrized neural networks and linearized models governed by he Neural Tangent Kernels (NTKs). NTK theory leads to concrete convergence and generalization results, yet the empirical performance of neural networks are observed to exceed their linearized models, suggesting insufficiency of this theory. Towards closing this gap, we investigate the training of over-parametrized neural networks that are beyond the NTK regime yet still governed by the Taylor expansion of the network. We bring forward the idea of \\emph{randomizing} the neural networks, which allows them to escape their NTK and couple with quadratic models. We show that the optimization landscape of randomized two-layer networks are nice and amenable to escaping-saddle algorithms. We prove concrete generalization and expressivity results on these randomized networks, which lead to sample complexity bounds (of learning certain simple functions) that match the NTK and can in addition be better by a dimension factor when mild distributional assumptions are present. We demonstrate that our randomization technique can be generalized systematically beyond the quadratic case, by using it to find networks that are coupled with higher-order terms in their Taylor series.
연구 동기 및 목표
- NTK 이론과 실험적 신경망 성능 사이의 격차를 동기 부여하고 해결한다.
- 학습이 선형 NTK 구역에서 더 높은 차원의 테일러 항으로 이동하도록 하는 무작위화 기법을 제안한다.
- 무작위화된 네트워크를 통한 최적화 지형 보장을 확립한다.
- 무작위 학습 네트워크에 대한 일반화 및 표현력 경계를 도출하고 NTK와의 샘플 복잡도를 비교한다.
- 간단한 함수 클래스 학습에 대한 표현력을 보이고 더 높은 차수의 테일러 항(k번째 차수)으로 확장하는 방법을 보여준다.
제안 방법
- 초기화 주변에서 2층 네트워크 f_W를 테일러 급수로 확장하고 NTK를 넘는 고차 항을 식별한다.
- 선형화된 항과 고차 항을 분리하기 위해 랜덤 부호 대각화 W Σ를 도입하고 결과로 도출된 결합된 2차 모델 f^Q_W를 분석한다.
- 무작위 위험 L(W) = E_Σ[L̃(WΣ)]를 형식화하고 가중치 성장을 제어하기 위해 l2,4 노름으로 정규화한다.
- 무작위로 얻은 손실 L이 멋진 지형을 가지며 어떤 2계점도 최적의 2차 모델에 비해 더 높은 손실을 가지지 않는다는 것을 증명한다.
- 정규화된 손실 L_λ로의 지형 전이를 보여주고 큰 학습률과 사다점 탈출 방법을 허용하는 최적화 보장을 제공한다.
- 무작위 2차 모델의 일반화 경향은 리디머 차원 복잡도 및 특징 맵 연산자 노름을 통해 도출하고, 다항식형 목표 함수로 표현력을 분석한다.
실험 결과
연구 질문
- RQ1NTK를 넘는 학습이 더 높은 차원의 테일러 항을 강조하는 무작위화 전략으로 달성될 수 있는가?
- RQ2무작위화가 최적화 역학을 선형 NTK가 아닌 2차(또는 더 높은 차수) 모델과 결합시키고, 그로 인한 지형이 유리한가?
- RQ3무작위로 학습된 고차 결합 모델과 NTK에 비해 일반화 및 표현력 측면에서 어떤 함의가 있는가?
- RQ4무작위화 접근법이 더 높은 차수(k번째 차수) 항으로 확장되어 간단한 함수 클래스 학습에 대해 NTK와 비교할 때 샘플 복잡도가 같거나 더 나은가?
주요 결과
- 무작위화가 테일러 급수의 NTK 중심 학습 항을 2차(또는 더 높은 차수) 항으로 이동시킨다.
- 무작위 위험 L은 모든 2계점이 최적의 2차 모델에 비해 학습 손실이 크게 높지 않은 지형을 제공하므로 효율적인 최적화를 가능하게 한다.
- 무작위 2차 모델에 대한 일반화 경계는 특징 분포 및 너비에 따라 확장되며 특정 영역에서 NTK보다 개선될 수 있다.
- 다항식 및 유사 함수 학습의 경우 무작위 2차 모델의 샘플 복잡도가 NTK와 일치하거나 약한 분포 가정 하에서 차원 인자에 의해 더 나을 수 있다.
- 이 프레임워크는 더 높은 차수의 테일러 항으로 확장되며, 잠재적으로 유사한 표현력과 우수한 일반화 경향을 지닌 고차 NTK를 연구하는 경로를 제시한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.