Skip to main content
QUICK REVIEW

[논문 리뷰] The Convergence Rate of Neural Networks for Learned Functions of Different Frequencies

Ronen Basri, David Jacobs|arXiv (Cornell University)|2019. 06. 02.
Neural Networks and Applications참고 문헌 26인용 수 90
한 줄 요약

이 논문은 경사 하강법으로 학습된 신경망이 다양한 주파수의 함수를 어떻게 학습하는지 분석하고, 저주파 구성요소가 더 빨리 학습되며 바이어스가 홀수 주파수 학습에 미치는 영향을 강조합니다.

ABSTRACT

We study the relationship between the frequency of a function and the speed at which a neural network learns it. We build on recent results that show that the dynamics of overparameterized neural networks trained with gradient descent can be well approximated by a linear system. When normalized training data is uniformly distributed on a hypersphere, the eigenfunctions of this linear system are spherical harmonic functions. We derive the corresponding eigenvalues for each frequency after introducing a bias term in the model. This bias term had been omitted from the linear network model without significantly affecting previous theoretical results. However, we show theoretically and experimentally that a shallow neural network without bias cannot represent or learn simple, low frequency functions with odd frequencies. Our results lead to specific predictions of the time it will take a network to learn functions of varying frequency. These predictions match the empirical behavior of both shallow and deep networks.

연구 동기 및 목표

  • 과주파수 매개 학습 동역학을 살펴봄으로써 과오버파라미터화된 네트워크가 일반화되는 이유를 동기 부여하고 분석한다.
  • 하이퍼스피어상의 학습 데이터가 학습 속도를 지배하는 구면 조화 고유함수가 학습 속도를 지배하게 되는 방식을 특성화한다.
  • 바이어스 항이 홀수 주파수 구성요소의 학습 가능성과 그에 따른 수렴 거동에 어떤 영향을 미치는지 보인다.
  • 주파수별 학습 시간에 대한 이론적 예측을 제시하고 얕은 네트워크와 깊은 네트워크에서 실험적으로 검증한다.

제안 방법

  • ReLU 활성화가 있는 선형화된 영역에서 2층 네트워크의 경사 하강 역학을 모델링한다.
  • 학습 역학을 포착하기 위해 Z 행렬과 Gram / H∞ 행렬을 정의한다.
  • 균일한 구면 데이터 하에서 H^∞의 고유값/고유함수를 도출하고, 구면 조화를 고유함수로 보임을 보인다.
  • 바이어스를 포함하도록 모델을 확장하고, 이것이 고유 구조와 홀수 주파수의 학습 가능성에 어떻게 영향을 주는지 보인다.
  • 구면에서의 컨볼루션 커널을 분석하기 위해 Funk-Hecke 정리를 사용하고 K^∞ 및 K̄^∞에 대한 닫힌 형태의 고유값을 얻는다.
  • 다양한 주파수와 네트워크 깊이에 대해 수렴 속도를 경험적으로 검증하고, 이를 이차적(k) 스케일링 예측과 대조한다.

실험 결과

연구 질문

  • RQ1타깃 함수의 주파수가 오버파라미터화된 네트워크에서 경사 하강법의 수렴 속도에 어떻게 영향을 미치는가?
  • RQ2바이어스 항의 포함이 홀수 주파수 구성요소의 학습 가능성에 미치는 영향은 무엇인가?
  • RQ3이론적 고유값/고유함수가 얕은 네트워크와 깊은 네트워크에서 관찰된 학습 시간으로 이어지는가?
  • RQ41차원 원형 데이터에서의 결과가 고차원 하이퍼스피어로 확장되는가?
  • RQ5관찰된 주파수 기반 학습 역학이 일반화와 얼리 스톱 현상을 설명할 수 있는가?

주요 결과

  • 타깃 함수의 저주파 구성요소는 경사 하강법 하에서 고주파 구성요소보다 더 빨리 학습된다.
  • 바이어스가 없는 네트워크의 경우, k ≥ 3인 홀수 주파수는 영공간(null space)에 있어 학습되거나 표현될 수 없다.
  • 바이어스가 있는 경우 홀수 주파수는 학습 가능하며 고유벡터는 여전히 구면 조화로 남아 주파수 간 학습 속도가 비슷하게 나타난다.
  • 주파수 k의 수렴 시간은 k에 대해 이차적으로 스케일링하며(예: 1D에서 k^2), 차원 d에서 대략 k^d로 증가하여 얕은 네트워크와 깊은 네트워크에서의 실험 결과와 일치한다.
  • 실험적 수렴 시간은 2층 네트, 딥 네트, 스킵 연결 네트워크 전반에서 이론적 예측과 일치하며, 바이어스는 홀수 주파수 학습 가능성을 높인다.
  • 해당 분석은 경사 하강법이 주파수 기반 규칙기로 작동하여 학습 중 저주파(더 매끄러운) 해를 선호한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.