Skip to main content
QUICK REVIEW

[논문 리뷰] Training behavior of deep neural network in frequency domain

Zhi‐Qin John Xu, Yaoyu Zhang|arXiv (Cornell University)|2018. 07. 03.
Neural Networks and Applications참고 문헌 29인용 수 49
한 줄 요약

DNN 훈련은 Frequency Principle을 따릅니다: 모델은 먼저 지배적인 저주파 구성요소를 포착한 다음 점차 고주파를 적합합니다, 데이터 세트, 아키텍처, 최적화 알고리즘 전반에 걸쳐 일반화 및 초기 중단에 대한 통찰을 제공합니다.

ABSTRACT

Why deep neural networks (DNNs) capable of overfitting often generalize well in practice is a mystery [#zhang2016understanding]. To find a potential mechanism, we focus on the study of implicit biases underlying the training process of DNNs. In this work, for both real and synthetic datasets, we empirically find that a DNN with common settings first quickly captures the dominant low-frequency components, and then relatively slowly captures the high-frequency ones. We call this phenomenon Frequency Principle (F-Principle). The F-Principle can be observed over DNNs of various structures, activation functions, and training algorithms in our experiments. We also illustrate how the F-Principle help understand the effect of early-stopping as well as the generalization of DNNs. This F-Principle potentially provides insights into a general principle underlying DNN optimization and generalization.

연구 동기 및 목표

  • 과도한 매개변수화된 DNN이 오버피팅 가능성에도 불구하고 왜 일반화가 잘 되는지 이해를 동기부여합니다.
  • 합성 데이터와 실제 데이터에서 DNN의 훈련 다이나믹스를 주파수 영역에서 특성화합니다.
  • 일반화와 초기 중단의 효과를 설명하는 최적화 편향을 식별합니다.
  • 아키텍처와 활성화 함수에 걸쳐 Frequency Principle의 일관성을 시연합니다.

제안 방법

  • 1-D 함수 및 실제 데이터셋(MNIST, CIFAR-10)을 사용하여 주파수 영역에서 DNN 훈련을 분석합니다.
  • 입력의 첫 번째 주성분을 따라 Fourier 변환을 계산하여 주파수 성분을 연구합니다.
  • 훈련 중 선택된 주파수 성분의 상대적 수렴을 추적합니다.
  • 다른 네트워크 아키텍처(fully connected tanh, CNN) 및 최적화 알고리즘(SGD, Adam)을 실험합니다.
  • 가우시안 초기화와 Adam 최적화기를 사용하여 평균 제곱 오차 손실을 비교하고 다이나믹스를 비교합니다.

실험 결과

연구 질문

  • RQ1Frequency Principle이 DNN이 데이터로부터 학습하는 방식에 지배적인가? 그렇다면 데이터 세트와 네트워크 유형 전반에 걸쳐 관찰되는가?
  • RQ2주파수 성분 적합의 순서가 일반화 및 초기 중단과 어떤 관계가 있는가?
  • RQ3초기화 및 아키텍처가 Frequency Principle의 등장에 어떤 역할을 하는가?

주요 결과

  • DNN은 먼저 지배적인 저주파 구성요소를 학습하고 그 후에 고주파 구성요소를 학습하는 경향이 있습니다.
  • Frequency Principle은 너비와 깊이가 다른 네트워크에서, 다양한 활성화 함수 및 최적화 도구에서 관찰됩니다.
  • 초기 중단은 고주파 노이즈의 적합을 방지하여 노이즈가 있는 설정에서 일반화를 향상시킬 수 있습니다.
  • 작은 초기화는 Frequency Principle 아래에서 더 나은 일반화를 촉진하는 경향이 있지만, 큰 초기화는 과적합으로 이어질 수 있습니다.
  • 이 원리는 최적화 다이나믹스와 DNN의 일반화 행동 사이의 합리적인 기제를 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.