QUICK REVIEW

[논문 리뷰] A Fine-Grained Spectral Perspective on Neural Networks

Greg Yang, Hadi Salman|arXiv (Cornell University)|2019. 07. 24.

Gaussian Processes and Bayesian Inference참고 문헌 59인용 수 42

한 줄 요약

논문은 Conjugate Kernel (CK)와 Neural Tangent Kernel (NTK) 스펙트럼을 연구하여 초기화, 학습 동역학 및 하이퍼파라미터 효과를 이해하고, 비유니버설 단순성 편향, 깊이 무역-off, 학습률 예측의 결과를 드러낸다.

ABSTRACT

Are neural networks biased toward simple functions? Does depth always help learn more complex features? Is training the last layer of a network as good as training all layers? How to set the range for learning rate tuning? These questions seem unrelated at face value, but in this work we give all of them a common treatment from the spectral perspective. We will study the spectra of the *Conjugate Kernel, CK,* (also called the *Neural Network-Gaussian Process Kernel*), and the *Neural Tangent Kernel, NTK*. Roughly, the CK and the NTK tell us respectively "what a network looks like at initialization" and "what a network looks like during and after training." Their spectra then encode valuable information about the initial distribution and the training and generalization properties of neural networks. By analyzing the eigenvalues, we lend novel insights into the questions put forth at the beginning, and we verify these insights by extensive experiments of neural networks. We derive fast algorithms for computing the spectra of CK and NTK when the data is uniformly distributed over the boolean cube, and show this spectra is the same in high dimensions when data is drawn from isotropic Gaussian or uniformly over the sphere. Code replicating our results is available at github.com/thegregyang/NNspectra.

연구 동기 및 목표

CK와 NTK의 스펙트럼 특성을 통해 신경망이 단순한 함수를 선호하는지 조사한다.
초깃값 분산, 활성화 함수 등 하이퍼파라미터가 스펙트럼에 미치는 영향과 학습/일반화에 대한 함의를 분석한다.
마지막 층만 학습하는 것과 모든 층을 학습하는 것의 특징 복잡성에 대한 무역-off를 검토한다.
스펙트럴 이론을 사용하여 발산하지 않는 최대 학습률을 예측하고 분포 및 실제 데이터에서 검증한다.

제안 방법

무한히 넓은 MLP에 대해 CK와 NTK를 정의하고 그들의 귀납적 커널 재발을 보인다.
CK/NTK가 가우시안 프로세스의 커널 및 선형화된 학습 역학으로 작용함을 보이고, 이를 통해 스펙트럴 분석을 가능하게 한다.
불리언 큐브에서 푸리에 기저를 사용해 CK/NTK를 대각화하고 차수별 고유값을 얻는다.
함수의 학습 가능성과 스펙트럴 콘텐츠의 관계를 암시적으로 나타내는 휴리스틱으로 분수 분산을 도입한다.
불리언 큐브, 구(sphere), 가우시안 분포 및 실제 데이터셋(MNIST, CIFAR10)에서 스펙트럴 예측을 경험적으로 검증한다.
불리언 큐브 및 고차원 설정에서 CK/NTK 스펙트럼의 빠른 계산을 개발하고 사용한다.

실험 결과

연구 질문

RQ1CK와 NTK 스펙트럼이 아키텍처와 깊이에 걸쳐 보편적 단순성 편향을 드러내는가?
RQ2깊이, 활성화 함수, 가중치/편향 분산이 최고 고유값과 차수별 분수 분산에 어떤 영향을 미치는가?
RQ3다양한 복잡도의 특징 학습을 위해 마지막 층만 학습하는 것이 모든 층을 학습하는 것보다 바람직한 시기는 언제인가?
RQ4스펙트럼 특성이 데이터 분포 및 데이터셋에 걸쳐 SGD의 실용적 학습률 한계(최대 학습률)를 예측할 수 있는가?

주요 결과

단순성 편향은 보편적이지 않다; 시그모이드 네트워크의 경우 깊이와 가중치 분산에 의해 편향이 약화되거나 제거될 수 있으며, 그러나 짝수/홀수 차수에 따른 고유값의 서열화에서 약한 형태가 남아 있다.
깊은 네트워크는 더 복잡한 특징을 학습할 수 있지만, 고차 구성요소에 대해 성능이 저하되는 최적 깊이가 존재한다.
NTK는 일반적으로 CK보다 고차 구성요소에 더 많은 분산을 할당하여 모든 층을 학습할 때 더 복잡한 특징 학습을 선호한다.
주어진 차수에 대해 분수 분산을 최대화하는 최적 깊이는 차수와 함께 증가하며, 깊이가 더 높은 복잡성의 특징에 더 큰 도움이 되지만 한계가 있다.
이 프레임워크는 분포와 실제 데이터에 걸친 최대 SGD 학습률의 정성적이고 어느 정도 정량적인 예측을 제공하여 경험적 결과와 일치한다.
MNIST 및 CIFAR10에 대한 실험 결과는 불리언 큐브 및 고차원 이론이 스펙트럼과 학습 동작을 예측하는 데 타당함을 보강한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.