Skip to main content
QUICK REVIEW

[논문 리뷰] Neural Tangent Kernel: Convergence and Generalization in Neural Networks

Arthur Paul Jacot, Franck Gabriel|arXiv (Cornell University)|2018. 06. 20.
Neural Networks and Applications참고 문헌 1인용 수 1,508
한 줄 요약

본 논문은 Neural Tangent Kernel (NTK)를 도입하고, 무한 폭 네트에서의 결정론적 극한 거동을 증명하며, 그래디언트 디센트(gradient descent) 하의 학습 역학이 함수 공간에서의 커널 그래디언트 디센트로 축소됨을 보인다.

ABSTRACT

At initialization, artificial neural networks (ANNs) are equivalent to Gaussian processes in the infinite-width limit, thus connecting them to kernel methods. We prove that the evolution of an ANN during training can also be described by a kernel: during gradient descent on the parameters of an ANN, the network function $f_θ$ (which maps input vectors to output vectors) follows the kernel gradient of the functional cost (which is convex, in contrast to the parameter cost) w.r.t. a new kernel: the Neural Tangent Kernel (NTK). This kernel is central to describe the generalization features of ANNs. While the NTK is random at initialization and varies during training, in the infinite-width limit it converges to an explicit limiting kernel and it stays constant during training. This makes it possible to study the training of ANNs in function space instead of parameter space. Convergence of the training can then be related to the positive-definiteness of the limiting NTK. We prove the positive-definiteness of the limiting NTK when the data is supported on the sphere and the non-linearity is non-polynomial. We then focus on the setting of least-squares regression and show that in the infinite-width limit, the network function $f_θ$ follows a linear differential equation during training. The convergence is fastest along the largest kernel principal components of the input data with respect to the NTK, hence suggesting a theoretical motivation for early stopping. Finally we study the NTK numerically, observe its behavior for wide networks, and compare it to the infinite-width limit.

연구 동기 및 목표

  • 완전 연결 네트워크의 학습 역학이 무한 폭 한계에서 어떻게 동작하는지 이해한다.
  • 네트워크 함수가 한계 NTK에 대해 커널 그래디언트 디센트로 따라가는지 보여준다.
  • 한계 NTK가 양의 정의를 가지며 수렴을 보장하는 조건을 확립한다.
  • 신경망 학습을 커널 방법과 연결하고 일반화 및 초기 중단에 대한 시사점을 설명한다.

제안 방법

  • 리프시치 비선형성( Lipschitz nonlinearity )과 임의 가우시안 초기화를 갖는 완전 연결 네트워크를 정의한다.
  • Neural Tangent Kernel (NTK)을 도입하고 층 폭이 무한대로 갈 때 결정론적 극한으로 수렴함을 증명한다.
  • 무한 폭 한계에서 학습 중 NTK가 일정하게 남는지 보인다.
  • 최소제곱 손실하에서 네트워크 함수에 영향을 주는 선형 미분방정식을 도출한다.
  • 커널 그래디언트 디센트와 데이터의 커널 주성분들을 통해 수렴을 분석한다.
  • 유한 폭 네트워크를 무한 폭 이론과 비교하는 수치 실험을 제공한다.

실험 결과

연구 질문

  • RQ1무한 폭 한계에서 NTK가 결정론적 극한 커널로 수렴하는가?
  • RQ2학습 중 NTK가 일정하게 유지되어 함수 공간에서 학습 역학을 설명할 수 있는가?
  • RQ3한계 NTK가 양의 정의를 가지며 따라서 수렴을 보장하는 조건은 무엇인가?
  • RQ4최소제곱 손실 하에서의 학습이 커널 주성분 및 조기 중단과 어떻게 관련되는가?
  • RQ5실무적으로 유한 폭 네트워크가 무한 폭 NTK 이론에 얼마나 잘 근사하는가?

주요 결과

  • 초기에 네트워크 함수는 가우시안 프로세스에 수렴하고, NTK는 폭이 무한대로 갈 때 확률적으로 결정론적 한계로 수렴한다.
  • 학습 중 NTK는 점근적으로 일정하게 유지되어 그래디언트 디센트를 함수 공간에서의 커널 그래디언트 디센트로 설명할 수 있다.
  • 비다항 Lipschitz 비선형성 및 구의 데이터의 경우 깊이가 최소 두인 경우에 한계 NTK가 양의 정의를 가지며 수렴을 보장한다.
  • 최소제곱 회귀에서는 학습 역학이 NTK에 의해 지배되는 선형 미분방정식으로 축약되며, 수렴 속도는 가장 큰 커널 주성분을 따라 가장 빨리 나타난다.
  • 수치 실험은 넓은 네트워크가 무한 폭 한계에 근접하고 학습 중 NTK가 그 극한에 근접한 채 유지됨을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.