QUICK REVIEW

[논문 리뷰] Explicitizing an Implicit Bias of the Frequency Principle in Two-layer Neural Networks

Yaoyu Zhang, Zhi‐Qin John Xu|arXiv (Cornell University)|2019. 05. 24.

Neural Networks and Applications참고 문헌 42인용 수 31

한 줄 요약

이 논문은 과도하게 파arameter화된 딥 뉴럴 네트워크(DNN)가 먼저 저주수 성분을 학습하는 은닉된 편향을 명시적으로 캡처하는 선형화된 주파수 원리(LFP) 동역학 모델을 제안한다. 고주파 성분을 페널티로 삼는 FP-노름을 최소화하는 등가의 제약 최적화 문제를 유도함으로써, 네트워크 폭에 관계없이 $1/\sqrt{M}$ 비례로 스케일링되는 사전 일반화 오차 경계를 제공한다. 이는 목표 함수의 고주파 노름이 클수록 일반화 오차가 증가함을 드러낸다.

ABSTRACT

It remains a puzzle that why deep neural networks (DNNs), with more parameters than samples, often generalize well. An attempt of understanding this puzzle is to discover implicit biases underlying the training process of DNNs, such as the Frequency Principle (F-Principle), i.e., DNNs often fit target functions from low to high frequencies. Inspired by the F-Principle, we propose an effective model of linear F-Principle (LFP) dynamics which accurately predicts the learning results of two-layer ReLU neural networks (NNs) of large widths. This LFP dynamics is rationalized by a linearized mean field residual dynamics of NNs. Importantly, the long-time limit solution of this LFP dynamics is equivalent to the solution of a constrained optimization problem explicitly minimizing an FP-norm, in which higher frequencies of feasible solutions are more heavily penalized. Using this optimization formulation, an a priori estimate of the generalization error bound is provided, revealing that a higher FP-norm of the target function increases the generalization error. Overall, by explicitizing the implicit bias of the F-Principle as an explicit penalty for two-layer NNs, our work makes a step towards a quantitative understanding of the learning and generalization of general DNNs.

연구 동기 및 목표

과도하게 파arameter화된 딥 뉴럴 네트워크(DNN)가 훈련 샘플 수보다 많은 파rameter를 가짐에도 불구하고 잘 일반화되는 이유를 해결하기 위해.
DNN가 훈련 중에 저주수에서 고주수 성분으로 학습하는 은닉된 주파수 원리(F-Principle) 편향을 접근 가능한 수학적 프레임워크를 사용해 명시적으로 모델링하기 위해.
학습된 모델에 대한 지식 없이도 목표 함수의 FP-노름에 명시적으로 의존하는 두 층의 ReLU 네트워크에 대한 일반화 오차 경계를 도출하기 위해.
F-Principle와 고주파 성분을 페널티로 삼는 타당한 해를 갖는 제약 최적화 문제 사이의 연결을 수립하기 위해.

제안 방법

다양한 주파수 성분에 대해 다른 학습 우선순위를 할당하는 선형화된 주파수 원리(LFP) 동역학 모델을 제안한다.
과도하게 파arameter화된 영역에서 유효한 두 층의 ReLU 네트워크에 대한 선형화된 평균장 잔여 동역학을 사용해 LFP 모델을 정당화한다.
LFP 동역학의 장기적 해가 고주파 성분을 해 공간에서 페널티로 삼는 주파수 원리 노름(FP-노름)을 최소화하는 것과 수학적으로 동치임을 증명한다.
학습 과정을 명시적으로 FP-노름을 최소화하는 제약 최적화 문제로 공식화함으로써 은닉된 편향을 명시화한다.
Rademacher 복잡도를 사용해 LFP 모델의 일반화 오차를 추정하고, 사전 경계를 도출한다.
수치적으로 $d=1$ 및 $d=2$에 대해 매개변수를 조정한 주파수 의존성 정규화 항을 가진 릿지 회귀 문제를 해결하여 LFP 해를 근사한다.

실험 결과

연구 질문

RQ1두 층의 ReLU 네트워크 훈련에서 관찰된 은닉 주파수 편향을, 최종 학습된 함수를 정확히 예측할 수 있는 방식으로 명시적으로 모델링할 수 있는가?
RQ2F-Principle 동역학과 명시적 정규화를 갖는 잘 정의된 최적화 문제 사이의 수학적 동치성은 무엇인가?
RQ3목표 함수의 FP-노름은 두 층의 ReLU 네트워크의 일반화 오차에 어떤 영향을 미치는가?
RQ4학습 샘플 수와 목표 함수의 성질에만 의존하고 네트워크 폭에 따라 달라지지 않는 사전 일반화 오차 경계를 도출할 수 있는가?
RQ5선형화된 평균장 잔여 동역학은 LFP 모델이 과도하게 파arameter화된 영역에서 타당함을 어떻게 정당화하는가?

주요 결과

LFP 동역학의 장기적 근사는 고주파 성분을 해 공간에서 페널티로 삼는 FP-노름을 최소화하는 제약 최적화 문제를 푸는 것과 수학적으로 동치이다.
LFP 모델의 일반화 오차는 $ \frac{2}{\sqrt{M}}\left\| f' \right\|_{\gamma}\left\| \gamma \right\|_{\ell^{2}} + 4\left\| f' \right\|_{\gamma}\left\| \gamma \right\|_{\ell^{2}}\sqrt{\frac{2\log(4/\delta)}{M}} $로 경계지어지며, 훈련 샘플 수 $M$과 목표 함수의 FP-노름에 명시적인 의존성을 보인다.
일반화 오차 경계는 $1/\sqrt{M}$ 비례로 스케일링되며 네트워크의 파rameter 수와 무관하여, 일반화 성능이 목표 함수의 주파수 구성에 의해 결정됨을 시사한다.
목표 함수의 FP-노름은 일반화 오차의 핵심 결정 요소이다: 높은 FP-노름일수록 더 큰 일반화 오차가 발생한다.
수치 실험은 LFP 모델이 넓은 두 층의 ReLU 네트워크의 출력을 정확히 예측함을 확인하여 그 예측 능력을 검증한다.
차원의 극복 문제로 인해 $d > 2$로의 확장은 이루어지지 않았다. 이는 격자 $\mathbb{L}^d$에서 주파수 정규화 항을 계산할 때 발생하는 차원의 극복 문제 때문이다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.