QUICK REVIEW

[논문 리뷰] On the linearity of large non-linear models: when and why the tangent kernel is constant

Chaoyue Liu, Libin Zhu|arXiv (Cornell University)|2020. 10. 02.

Stochastic Gradient Optimization Techniques참고 문헌 20인용 수 33

한 줄 요약

이 논문은 넓은 폭의 비선형 신경망이 폭이 커질수록 매개변수에 대해 선형이 될 수 있는 이유가 헤시안 행렬의 스케일링 때문임을 설명하고, 접선 커널이 일정하게 유지되거나 그렇지 않은지의 여부를 명확히 한다.

ABSTRACT

The goal of this work is to shed light on the remarkable phenomenon of transition to linearity of certain neural networks as their width approaches infinity. We show that the transition to linearity of the model and, equivalently, constancy of the (neural) tangent kernel (NTK) result from the scaling properties of the norm of the Hessian matrix of the network as a function of the network width. We present a general framework for understanding the constancy of the tangent kernel via Hessian scaling applicable to the standard classes of neural networks. Our analysis provides a new perspective on the phenomenon of constant tangent kernel, which is different from the widely accepted "lazy training". Furthermore, we show that the transition to linearity is not a general property of wide neural networks and does not hold when the last layer of the network is non-linear. It is also not necessary for successful optimization by gradient descent.

연구 동기 및 목표

넓은 신경망에서 접선 커널의 일정성(일관성)과 모델의 선형성 간의 관계를 명확히 한다.
폭이 커질 때 선형성으로의 전이를 이끄는 헤시안 행렬의 스케일링 특성을 식별한다.
접선 커널이 일정하게 유지되거나 일정하지 않게 되는 조건을 확립한다.
이 현상을 게으른 학습(lazy training) 서사와 구분하고 그 한계를 설명한다.
네트워크 아키텍처가 NTK(접선 커널) 동작에 어떤 영향을 미치는지에 대한 이론적 및 실험적 통찰을 제공한다.

제안 방법

접선 커널 K(w) = ∇w f(w; x)^T ∇w f(w; z) 를 정의하고 선형성과의 관계를 분석한다.
접선 커널이 일정하다는 것과 f가 w에 대해 선형이라는 것이 동치임을 보인다(정리 2.2).
작은 헤시안 노름을 통한 거의 일정한 접선 커널에 대한 충분조건을 도출한다(정리 2.3).
헤시안 스케일링의 일반 프레임워크를 개발하여 헤시안 노름을 층별 도함수의 무한노름과 고차 텐서의 (2,1,1)-노름과 연결한다.
깊은 네트워크의 헤시안에 대한 상한을 보이고, 그것이 부분 도함수의 무한노름과 출력층에서의 1/√m 인자에 의해 제어될 수 있음을 보인다(정리 3.1).
마지막 층이 비선형이거나 병목이 존재할 때 접선 커널의 비일정성이 발생할 수 있음을 보이고, 최적화에 대한 시사점을 논의한다.

실험 결과

연구 질문

RQ1네트워크 폭이 커질 때 어떤 조건에서 접선 커널이 일정하게 유지되는가?
RQ2헤시안 스케일링이 폭과 네트워크 아키텍처와 어떤 관계를 맺어 선형성을 만들어내는가?
RQ3선형성으로의 전이가 lazy training이나 모델 재스케일링에 의존하는가, 그리고 그것이 언제 발생하지 않는가?
RQ4근접 선형성 및 NTK 일정성을 방해하는 어떤 아키텍처적 특징이 있으며, 이것이 그래디언트 기반 최적화에 어떤 영향을 미치는가?

주요 결과

접선 커널은 모델이 매개변수에 대해 선형인 게 필요충분조건이다.
출력 층이 선형인 네트워크의 경우 헤시안 노름은 폭이 커짐에 따라 축소되어 무한 폭 극한에서 헤시안이 소멸하고 접선 커널이 일정해진다.
헤시안 스펙트럼 노름은 층별 도함수의 무한노름에 의해 좌우되고, 그래디언트와 접선 커널은 2-노름에 의해 좌우되므로 노름의 불균형이 선형성을 이끈다.
접선 커널의 일정성은 넓은 네트워크에서 보편적이지 않으며 마지막 층이 비선형이거나 병목이 존재할 때 실패할 수 있다.
선형성이 없더라도 경사 하강법으로 넓은 네트워크를 효율적으로 최적화할 수 있으며, 이는 NTK 일정성이 성공적인 최적화의 엄격한 전제조건은 아님을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.