QUICK REVIEW

[논문 리뷰] Computing Nonvacuous Generalization Bounds for Deep (Stochastic) Neural Networks with Many More Parameters than Training Data

Gintare Karolina Dziugaite, Daniel M. Roy|arXiv (Cornell University)|2017. 03. 31.

Stochastic Gradient Optimization Techniques참고 문헌 22인용 수 250

한 줄 요약

본 논문은 PAC-Bayes 경계를 최적화하여 수백만 개의 매개변수를 가진 심층 확률 신경망에 대해 비비관적 일반화 경계(비비관적 일반화 경계)를 계산하고, 수만 개의 예제로 학습될 때 과초과 매개변수화된 영역에서 의미 있는 일반화를 입증한다.

ABSTRACT

One of the defining properties of deep learning is that models are chosen to have many more parameters than available training data. In light of this capacity for overfitting, it is remarkable that simple algorithms like SGD reliably return solutions with low test error. One roadblock to explaining these phenomena in terms of implicit regularization, structural properties of the solution, and/or easiness of the data is that many learning bounds are quantitatively vacuous when applied to networks learned by SGD in this "deep learning" regime. Logically, in order to explain generalization, we need nonvacuous bounds. We return to an idea by Langford and Caruana (2001), who used PAC-Bayes bounds to compute nonvacuous numerical bounds on generalization error for stochastic two-layer two-hidden-unit neural networks via a sensitivity analysis. By optimizing the PAC-Bayes bound directly, we are able to extend their approach and obtain nonvacuous generalization bounds for deep stochastic neural network classifiers with millions of parameters trained on only tens of thousands of examples. We connect our findings to recent and old work on flat minima and MDL-based explanations of generalization.

연구 동기 및 목표

매우 과매개변수화된 영역에서 SGD로 학습된 심층 네트워크에 대한 비비관적 일반화 경계를 동기화하고 정량화한다.
Langford와 Caruana의 PAC-Bayes 접근법을 수백만 개의 매개변수를 가지는 현대의 심층 아키텍처로 확장한다.
SGD 해법 주위의 넓은 영역이 유사하게 좋은 모델을 포함함을 보여주어 비비관적 경계가 가능하게 한다.
경계를 평탄한 최소값의 아이디어와 일반화에 대한 MDL 기반 설명과 연결한다.

제안 방법

확률적 신경망에 대한 PAC-Bayes 경계를 형식화하고, 평균이 w이고 대각 공분산이 s인 가중치에 대한 가우시안 분포로 경계를 표현한다.
경사 기반 방법으로 경계를 최적화하여 경험적 대리손실과 경계 의존 정규화를 최소화하는 Q = N(w, diag(s)) 분포를 찾는다.
이산화된 분산 스케일 lambda에 대해 합집합(bound) 스타일의 사전(prior)을 사용하여 계산 가능하고 최적화 가능한 경계를 가능하게 한다.
SGD 해법의 무작위 섭동에 따른 대리 경험 손실의 편향되지 않은 기울기 추정치를 사용한다.
무작위 분류기의 경험적 오류를 추정하기 위한 몬테카를로 근사로 경계를 계산하고 추정 오차를 제어하기 위해 샘플 수렴(bound)을 호출한다.
테스트된 아키텍처에 대해 높은 확률(약 0.965)로 성립하는 경계와 함께 결과를 보고한다.

실험 결과

연구 질문

RQ1수백만 개의 매개변수를 가진 심층 확률 네트워크에 대해 비비관적 일반화 경계를 얻을 수 있는가?
RQ2SGD 해법 주위에서 PAC-Bayes 경계를 최적화하면 비슷하게 성능이 좋은 가중치 구성이 넓은 영역을 드러내는가(해결점 주변의 평탄성)?
RQ3매우 과매개변수화된 영역에서 데이터 의존적 PAC-Bayes 경계와 데이터 비의존적 VC 경계는 어떻게 비교되는가?
RQ4경계가 실제 라벨 학습과 무작위 라벨 학습 시나리오 간의 차이를 반영하는가?

주요 결과

수백만 개의 매개변수를 가진 심층 네트워크가 수만 개의 예제로 학습될 때 일반화에 대한 비비관적 수치 경계가 달성 가능하다.
최적화된 PAC-Bayes 경계는 여러 아키텍처에서 이진 MNIST 변형에 대해 대략 16–22% 범위의 테스트 오류 경계를 산출한다, 큰 모델 용량에도 불구하고.
실제 레이블 학습의 경우 SNN 경계는 여전히 의미 있으며 더 큰 네트워크에서 크게 증가하지 않아 매개변수 수를 넘는 비자명한 일반화를 시사한다.
랜덤 라벨로 학습될 때 PAC-Bayes 경계는 허구로 변해 일반화되지 않는 설정에서의 한계를 강조한다.
경험적 결과는 SGD 해법이 낮은 오류의 가중치 구성의 넓은 영역 중심 근처에 있음을 보여주며, SGD 해법 주위의 평탄한 영역이 일반화에 기여한다는 가설을 지지한다.
KC 경계(VC 차원)는 데이터 독립적 분석에서 여전히 지나치게 느슨하여, PAC-Bayes와 같은 데이터 의존적 접근의 필요성을 강조한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.