QUICK REVIEW

[논문 리뷰] The Convergence Rate of Neural Networks for Learned Functions of Different Frequencies

Ronen Basri, David Jacobs|arXiv (Cornell University)|2019. 06. 02.

Neural Networks and Applications참고 문헌 26인용 수 90

한 줄 요약

이 논문은 경사 하강법으로 학습된 신경망이 다양한 주파수의 함수를 어떻게 학습하는지 분석하고, 저주파 구성요소가 더 빨리 학습되며 바이어스가 홀수 주파수 학습에 미치는 영향을 강조합니다.

ABSTRACT

We study the relationship between the frequency of a function and the speed at which a neural network learns it. We build on recent results that show that the dynamics of overparameterized neural networks trained with gradient descent can be well approximated by a linear system. When normalized training data is uniformly distributed on a hypersphere, the eigenfunctions of this linear system are spherical harmonic functions. We derive the corresponding eigenvalues for each frequency after introducing a bias term in the model. This bias term had been omitted from the linear network model without significantly affecting previous theoretical results. However, we show theoretically and experimentally that a shallow neural network without bias cannot represent or learn simple, low frequency functions with odd frequencies. Our results lead to specific predictions of the time it will take a network to learn functions of varying frequency. These predictions match the empirical behavior of both shallow and deep networks.

연구 동기 및 목표

과주파수 매개 학습 동역학을 살펴봄으로써 과오버파라미터화된 네트워크가 일반화되는 이유를 동기 부여하고 분석한다.
하이퍼스피어상의 학습 데이터가 학습 속도를 지배하는 구면 조화 고유함수가 학습 속도를 지배하게 되는 방식을 특성화한다.
바이어스 항이 홀수 주파수 구성요소의 학습 가능성과 그에 따른 수렴 거동에 어떤 영향을 미치는지 보인다.
주파수별 학습 시간에 대한 이론적 예측을 제시하고 얕은 네트워크와 깊은 네트워크에서 실험적으로 검증한다.

제안 방법

ReLU 활성화가 있는 선형화된 영역에서 2층 네트워크의 경사 하강 역학을 모델링한다.
학습 역학을 포착하기 위해 Z 행렬과 Gram / H∞ 행렬을 정의한다.
균일한 구면 데이터 하에서 H^∞의 고유값/고유함수를 도출하고, 구면 조화를 고유함수로 보임을 보인다.
바이어스를 포함하도록 모델을 확장하고, 이것이 고유 구조와 홀수 주파수의 학습 가능성에 어떻게 영향을 주는지 보인다.
구면에서의 컨볼루션 커널을 분석하기 위해 Funk-Hecke 정리를 사용하고 K^∞ 및 K̄^∞에 대한 닫힌 형태의 고유값을 얻는다.
다양한 주파수와 네트워크 깊이에 대해 수렴 속도를 경험적으로 검증하고, 이를 이차적(k) 스케일링 예측과 대조한다.

실험 결과

연구 질문

RQ1타깃 함수의 주파수가 오버파라미터화된 네트워크에서 경사 하강법의 수렴 속도에 어떻게 영향을 미치는가?
RQ2바이어스 항의 포함이 홀수 주파수 구성요소의 학습 가능성에 미치는 영향은 무엇인가?
RQ3이론적 고유값/고유함수가 얕은 네트워크와 깊은 네트워크에서 관찰된 학습 시간으로 이어지는가?
RQ41차원 원형 데이터에서의 결과가 고차원 하이퍼스피어로 확장되는가?
RQ5관찰된 주파수 기반 학습 역학이 일반화와 얼리 스톱 현상을 설명할 수 있는가?

주요 결과

타깃 함수의 저주파 구성요소는 경사 하강법 하에서 고주파 구성요소보다 더 빨리 학습된다.
바이어스가 없는 네트워크의 경우, k ≥ 3인 홀수 주파수는 영공간(null space)에 있어 학습되거나 표현될 수 없다.
바이어스가 있는 경우 홀수 주파수는 학습 가능하며 고유벡터는 여전히 구면 조화로 남아 주파수 간 학습 속도가 비슷하게 나타난다.
주파수 k의 수렴 시간은 k에 대해 이차적으로 스케일링하며(예: 1D에서 k^2), 차원 d에서 대략 k^d로 증가하여 얕은 네트워크와 깊은 네트워크에서의 실험 결과와 일치한다.
실험적 수렴 시간은 2층 네트, 딥 네트, 스킵 연결 네트워크 전반에서 이론적 예측과 일치하며, 바이어스는 홀수 주파수 학습 가능성을 높인다.
해당 분석은 경사 하강법이 주파수 기반 규칙기로 작동하여 학습 중 저주파(더 매끄러운) 해를 선호한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.