[논문 리뷰] Deep learning generalizes because the parameter-function map is biased towards simple functions
논문은 DNN의 매개변수-함수 맵이 간단한 함수 쪽으로 지수적으로 편향되어 있으며, 이는 고유 규제이며 일반화에 기여한다고 주장한다; 알고리즘 정보 이론과 가우시안 프로세스 PAC-Bayes 경계를 사용하여 이 편향을 일반화 성능과 연결한다.
Deep neural networks (DNNs) generalize remarkably well without explicit regularization even in the strongly over-parametrized regime where classical learning theory would instead predict that they would severely overfit. While many proposals for some kind of implicit regularization have been made to rationalise this success, there is no consensus for the fundamental reason why DNNs do not strongly overfit. In this paper, we provide a new explanation. By applying a very general probability-complexity bound recently derived from algorithmic information theory (AIT), we argue that the parameter-function map of many DNNs should be exponentially biased towards simple functions. We then provide clear evidence for this strong simplicity bias in a model DNN for Boolean functions, as well as in much larger fully connected and convolutional networks applied to CIFAR10 and MNIST. As the target functions in many real problems are expected to be highly structured, this intrinsic simplicity bias helps explain why deep networks generalize well on real world problems. This picture also facilitates a novel PAC-Bayes approach where the prior is taken over the DNN input-output function space, rather than the more conventional prior over parameter space. If we assume that the training algorithm samples parameters close to uniformly within the zero-error region then the PAC-Bayes theorem can be used to guarantee good expected generalization for target functions producing high-likelihood training sets. By exploiting recently discovered connections between DNNs and Gaussian processes to estimate the marginal likelihood, we produce relatively tight generalization PAC-Bayes error bounds which correlate well with the true error on realistic datasets such as MNIST and CIFAR10 and for architectures including convolutional and fully connected networks.
연구 동기 및 목표
- AIT 기반 경계를 사용하여 DNN의 매개변수-함수 맵이 간단한 함수 쪽으로 편향되어 있음을 주장한다.
- MNIST, CIFAR-10, 그리고 Boolean 태스크에서 소형 DNN과 더 큰 아키텍처(CNN, FCN)에서 실증적 단순성 편향을 시연한다.
- 가우시안 프로세스로 추정된 입력-출력 함수에 대한 사전으로 PAC-Bayes 프레임워크를 도입하여 일반화 경계를 제시한다.
- GP의 주변 우도 추정이 NN 동작을 근사하고 아키텍처 및 데이터셋에 걸쳐 유용한 일반화 경계를 산출함을 보인다.
제안 방법
- 신경 모델에 대해 매개변수-함수 맵 M: Θ -> F를 정의하고 그 단순성 편향을 분석한다.
- 알고리즘적 정보 이론의 확률-복잡도 경계를 적용하여 함수 확률을 기술적 복잡도 K(f)와 연관시킨다.
- 매개변수를 샘플링하고 함수 빈도를 세어 이산 Boolean-함수 DNN에 대해 P(f)를 실증적으로 추정한다.
- 가우시안 프로세스(GP) 근사를 사용하여 함수에 대한 사전 P(f)을 추정하고 학습 데이터에 대한 주변 우도 P(U)를 계산한다.
- GP 기반 사전을 이용한 PAC-Bayes 경계를 적용하여 데이터셋 전반에 걸친 실제 일반화 오차를 추적하는 기대 일반화 경계를 얻는다.
- GP 기반의 주변 우도를 실험적 NN 확률과 비교하여 GP 근사를 검증한다.
실험 결과
연구 질문
- RQ1DNN의 매개변수-함수 맵이 간단한 함수 쪽으로 강한 편향을 보이는가?
- RQ2알고리즘적 정보 이론과 함수-공간 사전(가우시안 프로세스 이용)을 활용한 PAC-Bayes 경계가 과매개변수화된 네트워크에서 관찰된 일반화를 설명할 수 있는가?
- RQ3무작위 매개변수 샘플링에서 경험적 지표(예: Lempel-Ziv 복잡도)가 함수 확률과 상관관계가 있는가?
- RQ4GP 기반 사전이 NN 주변 우도를 실제 데이터세트에서 의미 있는 일반화 경계를 산출할 만큼 잘 재현하는가?
- RQ5SGD와 같은 학습 동역학이 0오류 영역 내에서 거의 균일하게 샘플링하여 PAC-Bayes 프레임워크를 뒷받침하는가?
주요 결과
- DNN의 매개변수-함수 맵은 저복잡도(단순) 함수 쪽으로 지수적으로 편향되어 있어 P(f) 분포가 매우 편향된다.
- Boolean-함수 DNN 및 더 큰 아키텍처(CNN 및 FCN)에 대한 실험에서 고확률 함수는 낮은 Lempel-Ziv 복잡도와 낮은 Kolmogorov 유사 복잡도 척도를 가진다.
- 가우시안 프로세스 근사는 유한 폭 네트워크에서 NN 주변 우도를 정확히 재현하여 PAC-Bayes 경계를 위한 P(U)의 실용적 추정을 가능하게 한다.
- 함수에 대한 GP 근사 사전을 사용해 계산된 PAC-Bayes 경계가 MNIST, 패션-MNIST, CIFAR-10 전반과 CNN 및 FC 아키텍처 전반에 걸친 실제 일반화 오차를 추적한다.
- SGD 유사 학습과 GP 기반 베이지안 샘플링이 유사한 함수 분포를 만들어 최적화가 단순하고 확률이 높은 함수 쪽으로 편향된다는 해석을 뒷받침한다.
- 제안된 함수-공간 PAC-Bayes 경계는 데이터셋 전반에 걸친 관찰된 일반화 경향과 일치하는 비교적 촘촘한 일반화 경계를 산출한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.