[논문 리뷰] On the Spectral Bias of Deep Neural Networks
이 논문은 푸리에 분석을 통해 스펙트럼 편향을 분석함으로써, 과도하게 파rameter화된 딥 뉴럴 네트워크(DNNs)가 무작위 데이터를 기억할 수 있는 능력에도 불구하고 일반화가 잘 되는 이유를 설명한다. DNNs는 매끄러운 함수를 본질적으로 선호하며, 주파수 성분이 적어도 O(k⁻²) 이상으로 감쇠됨을 보여주며, 고주파수 함수는 파arameter 공간의 더 작은 부피를 차지함으로써 일반화와 적대적 예측에 대한 강건성을 설명한다.
It is well known that over-parametrized deep neural networks (DNNs) are an overly expressive class of functions that can memorize even random data with $100\%$ training accuracy. This raises the question why they do not easily overfit real data. To answer this question, we study deep networks using Fourier analysis. We show that deep networks with finite weights (or trained for finite number of steps) are inherently biased towards representing smooth functions over the input space. Specifically, the magnitude of a particular frequency component ($k$) of deep ReLU network function decays at least as fast as $\mathcal{O}(k^{-2})$, with width and depth helping polynomially and exponentially (respectively) in modeling higher frequencies. This shows for instance why DNNs cannot perfectly extit{memorize} peaky delta-like functions. We also show that DNNs can exploit the geometry of low dimensional data manifolds to approximate complex functions that exist along the manifold with simple functions when seen with respect to the input space. As a consequence, we find that all samples (including adversarial samples) classified by a network to belong to a certain class are connected by a path such that the prediction of the network along that path does not change. Finally we find that DNN parameters corresponding to functions with higher frequency components occupy a smaller volume in the parameter.
연구 동기 및 목표
- 과도하게 파arameter화된 DNNs가 높은 표현 능력을 지니고 있음에도 불구하고 실제 데이터에 대해 오버피팅하지 않는 이유를 이해하는 것.
- 다양한 주파수에서 함수를 표현하는 데 있어 DNNs의 인덕티브 편향을 조사하는 것.
- 저차원 데이터 다양체의 기하학이 DNN 일반화에 미치는 영향을 분석하는 것.
- 예측의 경로연결성에 의해 DNN의 적대적 예측에 대한 강건성을 설명하는 것.
- 고주파수 성분을 가진 함수가 차지하는 파arameter 공간의 부피를 정량화하는 것.
제안 방법
- 딥 ReLU 네트워크의 푸리에 스펙트럼을 분석하여 주파수 성분의 감쇠를 연구하는 것.
- 주파수 성분 k의 크기가 적어도 O(k⁻²) 이상 감쇠됨을 보여주는 이론적 경계를 도출하는 것.
- 너비와 깊이를 각각 고주파수를 다루는 데 다항식적, 지수적으로 기여하는 요소로 활용하는 것.
- 데이터 다양체 기하학이 함수 근사에 미치는 영향을 연구하여, 다양체를 따라 복잡한 함수가 입력 공간에서는 단순하게 보일 수 있음을 보여주는 것.
- 동일한 클래스로 분류된 모든 샘플이 네트워크 예측이 일정하게 유지되는 경로로 연결되어 있음을 증명하는 것.
- 다른 주파수 성분을 가진 함수가 차지하는 파arameter 공간의 부피를 측정하여, 고주파수 함수가 더 작은 부피를 차지함을 보여주는 것.
실험 결과
연구 질문
- RQ1과도하게 파arameter화된 DNNs는 무작위 레이블을 기억할 수 있음에도 불구하고, 왜 실제 데이터에 대해 오버피팅하지 않는가?
- RQ2DNN의 함수 주파수 스펙트럼은 어떻게 행동하며, 그 감쇠 속도는 무엇에 의해 결정되는가?
- RQ3저차원 데이터 다양체의 기하학은 DNN 함수 근사에 어떻게 영향을 미치는가?
- RQ4왜 적대적 예측은 더 파괴적이지 않은가? DNN의 어떤 구조적 특성이 이를 설명하는가?
- RQ5파arameter 공간의 몇 퍼센트가 고주파수 성분을 가진 함수에 의해 점령되는가?
주요 결과
- 학습된 DNN에서 주파수 성분 k의 크기는 적어도 O(k⁻²) 이상 감쇠됨을 보여주며, 이는 낮은 주파수, 매끄러운 함수를 강하게 선호함을 시사한다.
- 네트워크의 너비가 고주파수를 다루는 데 다항식적으로 기여하고, 깊이가 지수적으로 기여함으로써 더 나은 고주파수 표현이 가능해진다.
- 이러한 스펙트럼 편향으로 인해 DNNs는 피크가 강한 델타 유사 함수를 완벽하게 기억할 수 없다.
- 동일한 클래스로 분류된 모든 입력은 네트워크의 예측이 일정하게 유지되는 경로로 연결되어 있으며, 이는 소규모 변형에 대한 강건성을 설명한다.
- 높은 주파수 성분을 가진 함수는 파arameter 공간에서 상당히 더 작은 부피를 차지함을 보여주며, 이는 일반화의 기하학적 이유를 시사한다.
- 스펙트럼 편향은 최적화 때문이 아니라 아키텍처와 학습 과정에 기인하며, 유한한 가중치를 가진 DNNs에 내재된 특성이다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.