QUICK REVIEW

[논문 리뷰] Training behavior of deep neural network in frequency domain

Zhi‐Qin John Xu, Yaoyu Zhang|arXiv (Cornell University)|2018. 07. 03.

Neural Networks and Applications참고 문헌 29인용 수 49

한 줄 요약

DNN 훈련은 Frequency Principle을 따릅니다: 모델은 먼저 지배적인 저주파 구성요소를 포착한 다음 점차 고주파를 적합합니다, 데이터 세트, 아키텍처, 최적화 알고리즘 전반에 걸쳐 일반화 및 초기 중단에 대한 통찰을 제공합니다.

ABSTRACT

Why deep neural networks (DNNs) capable of overfitting often generalize well in practice is a mystery [#zhang2016understanding]. To find a potential mechanism, we focus on the study of implicit biases underlying the training process of DNNs. In this work, for both real and synthetic datasets, we empirically find that a DNN with common settings first quickly captures the dominant low-frequency components, and then relatively slowly captures the high-frequency ones. We call this phenomenon Frequency Principle (F-Principle). The F-Principle can be observed over DNNs of various structures, activation functions, and training algorithms in our experiments. We also illustrate how the F-Principle help understand the effect of early-stopping as well as the generalization of DNNs. This F-Principle potentially provides insights into a general principle underlying DNN optimization and generalization.

연구 동기 및 목표

과도한 매개변수화된 DNN이 오버피팅 가능성에도 불구하고 왜 일반화가 잘 되는지 이해를 동기부여합니다.
합성 데이터와 실제 데이터에서 DNN의 훈련 다이나믹스를 주파수 영역에서 특성화합니다.
일반화와 초기 중단의 효과를 설명하는 최적화 편향을 식별합니다.
아키텍처와 활성화 함수에 걸쳐 Frequency Principle의 일관성을 시연합니다.

제안 방법

1-D 함수 및 실제 데이터셋(MNIST, CIFAR-10)을 사용하여 주파수 영역에서 DNN 훈련을 분석합니다.
입력의 첫 번째 주성분을 따라 Fourier 변환을 계산하여 주파수 성분을 연구합니다.
훈련 중 선택된 주파수 성분의 상대적 수렴을 추적합니다.
다른 네트워크 아키텍처(fully connected tanh, CNN) 및 최적화 알고리즘(SGD, Adam)을 실험합니다.
가우시안 초기화와 Adam 최적화기를 사용하여 평균 제곱 오차 손실을 비교하고 다이나믹스를 비교합니다.

실험 결과

연구 질문

RQ1Frequency Principle이 DNN이 데이터로부터 학습하는 방식에 지배적인가? 그렇다면 데이터 세트와 네트워크 유형 전반에 걸쳐 관찰되는가?
RQ2주파수 성분 적합의 순서가 일반화 및 초기 중단과 어떤 관계가 있는가?
RQ3초기화 및 아키텍처가 Frequency Principle의 등장에 어떤 역할을 하는가?

주요 결과

DNN은 먼저 지배적인 저주파 구성요소를 학습하고 그 후에 고주파 구성요소를 학습하는 경향이 있습니다.
Frequency Principle은 너비와 깊이가 다른 네트워크에서, 다양한 활성화 함수 및 최적화 도구에서 관찰됩니다.
초기 중단은 고주파 노이즈의 적합을 방지하여 노이즈가 있는 설정에서 일반화를 향상시킬 수 있습니다.
작은 초기화는 Frequency Principle 아래에서 더 나은 일반화를 촉진하는 경향이 있지만, 큰 초기화는 과적합으로 이어질 수 있습니다.
이 원리는 최적화 다이나믹스와 DNN의 일반화 행동 사이의 합리적인 기제를 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.