QUICK REVIEW

[논문 리뷰] Frequency Bias in Neural Networks for Input of Non-Uniform Density

Ronen Basri, Meirav Galun|arXiv (Cornell University)|2020. 03. 10.

Stochastic Gradient Optimization Techniques참고 문헌 24인용 수 29

한 줄 요약

이 논문은 비균일한 밀도를 가진 훈련 데이터를 가진 과다매개변수화된 신경망에서 주파수 편향을 신경망 접선 커널(Neural Tangent Kernel, NTK) 프레임워크를 사용하여 조사한다. 주파수 $\kappa$를 가진 조화함수의 수렴 시간이 $O(\kappa^d / p^*)$ 비례함을 보여주며, 여기서 $p^*$는 최소 국소적 데이터 밀도이다. 이는 고주파 성분이 밀도가 높은 영역에서 더 빨리 학습됨을 시사하며, 이는 이전에 균일한 데이터 분포에 국한되어 있던 주파수 편향 이론을 비균일한 데이터 분포로 확장한다.

ABSTRACT

Recent works have partly attributed the generalization ability of over-parameterized neural networks to frequency bias -- networks trained with gradient descent on data drawn from a uniform distribution find a low frequency fit before high frequency ones. As realistic training sets are not drawn from a uniform distribution, we here use the Neural Tangent Kernel (NTK) model to explore the effect of variable density on training dynamics. Our results, which combine analytic and empirical observations, show that when learning a pure harmonic function of frequency $κ$, convergence at a point $\x \in \Sphere^{d-1}$ occurs in time $O(κ^d/p(\x))$ where $p(\x)$ denotes the local density at $\x$. Specifically, for data in $\Sphere^1$ we analytically derive the eigenfunctions of the kernel associated with the NTK for two-layer networks. We further prove convergence results for deep, fully connected networks with respect to the spectral decomposition of the NTK. Our empirical study highlights similarities and differences between deep and shallow networks in this model.

연구 동기 및 목표

과다매개변수화된 신경망에서 주파수 편향이 비균일한 데이터 밀도에 의해 어떻게 영향을 받는지 이해하는 것.
이전에 균일한 데이터 분포에 국한되어 있던 주파수 편향 이론을 현실적인 비균일한 데이터로 확장하는 것.
NTK 프레임워크를 사용하여 비균일한 입력 밀도 하에서 얕은(두 층) 및 깊은 완전연결 신경망의 수렴 동역학을 분석하는 것.
학습 속도가 국소적 데이터 밀도와 목표 함수 주파수에 어떻게 의존하는지 정량화하는 것.

제안 방법

비균일한 데이터 밀도 하에서 과다매개변수화된 네트워크의 학습 동역학을 분석하기 위해 신경망 접선 커널(NTK) 모델을 사용한다.
단위 원 위의 두 층 ReLU 네트워크에서 조각별로 일정한 밀도를 가진 경우 NTK의 고유함수와 고유값에 대한 닫힌 형태의 표현식을 유도한다.
d차원 입력 공간에서 순수한 주파수 $\kappa$의 조화함수에 대한 수렴 시간이 $O(\kappa^d / p^*)$임을 증명한다. 여기서 $p^*$는 최소 국소 밀도이다.
깊은 완전연결 네트워크로 이론적 분석을 확장하여, 목표 함수가 NTK 고유벡터에 투영된 정도에 따라 수렴 속도가 달라짐을 증명한다.
조각별 일정한 밀도를 가진 합성 데이터를 사용하여 $\mathbb{S}^{1}$ 및 $\mathbb{S}^{2}$에서 결과를 실증적으로 검증한다. 주파수가 다양하게 설정된 목표 함수를 사용한다.
얕은 네트워크와 깊은 네트워크 간의 고유함수 및 고유값 감쇠를 비교하여 비균일성 하에서의 주파수 편향의 유사성과 차이를 평가한다.

실험 결과

연구 질문

RQ1비균일한 데이터 밀도는 과다매개변수화된 신경망에서 관찰되는 주파수 편향에 어떤 영향을 미치는가?
RQ2다양한 국소적 데이터 밀도 영역에서 주파수 $\kappa$를 가진 조화함수를 학습하는 데 필요한 이론적 수렴 시간은 무엇인가?
RQ3비균일한 데이터 밀도 하에서 깊은 완전연결 네트워크는 얕은 네트워크와 유사한 주파수 편향 행동을 보이는가?
RQ4비균일한 데이터에 대해 NTK의 고유함수는 높은 밀도 영역에서 더 높은 국소 주파수를 가지는가?
RQ5비균일한 데이터 하에서 깊은 네트워크의 NTK 스펙트럼 분해는 얕은 네트워크와 어떻게 비교되는가?

주요 결과

주파수 $\kappa$를 가진 조화함수를 학습하는 데 소요되는 수렴 시간은 $O(\kappa^d / p^*)$ 비례하며, 여기서 $p^*$는 최소 국소적 데이터 밀도이다. 이는 고주파 성분이 밀도가 높은 영역에서 더 빨리 학습됨을 시사한다.
단위 원 $\mathbb{S}^1$ 상의 두 층 ReLU 네트워크에서 NTK 고유함수는 국소 주파수를 조각별로 일정하게 가지며, 높은 데이터 밀도 영역에서 더 높은 주파수를 가진다.
실증 결과는 깊은 완전연결 네트워크도 유사한 주파수 편향을 보이며, 비균일한 밀도 하에서 수렴 시간이 $O(\kappa^d / p^*)$ 비례함을 확인한다.
NTK의 고유값은 주파수에 따라 감쇠되며, 이는 깊은 네트워크에서도 비균일한 데이터 분포 하에서도 주파수 편향의 존재를 뒷받침한다.
비균일한 밀도 하에서 깊은 네트워크의 NTK 고유함수는 실증적으로 얕은 네트워크의 고유함수와 구별되지 않으며, 이는 공통된 인덕티브 바이어스를 가짐을 시사한다.
균일하게 분포된 데이터의 경우 NTK 고유함수는 구면조화함수이며, 주파수 $\kappa$에 대한 수렴 시간은 $O(\kappa^d)$이며, 이는 이전 결과와 일치한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.