QUICK REVIEW

[논문 리뷰] Generalization in Deep Networks: The Role of Distance from Initialization

Vaishnavh Nagarajan, J. Zico Kolter|arXiv (Cornell University)|2019. 01. 07.

Stochastic Gradient Optimization Techniques참고 문헌 12인용 수 57

한 줄 요약

본 논문은 초기화 의존적 유효 모델 용량을 제안하고, SGD가 초기화로부터의 거리를 암묵적으로 규제한다는 경험적 및 이론적 증거를 제시하며, 이는 심층 신경망의 일반화 현상을 설명하는 데 도움이 된다.

ABSTRACT

Why does training deep neural networks using stochastic gradient descent (SGD) result in a generalization error that does not worsen with the number of parameters in the network? To answer this question, we advocate a notion of effective model capacity that is dependent on {\em a given random initialization of the network} and not just the training algorithm and the data distribution. We provide empirical evidences that demonstrate that the model capacity of SGD-trained deep networks is in fact restricted through implicit regularization of {\em the $\ell_2$ distance from the initialization}. We also provide theoretical arguments that further highlight the need for initialization-dependent notions of model capacity. We leave as open questions how and why distance from initialization is regularized, and whether it is sufficient to explain generalization.

연구 동기 및 목표

네트워크의 고정된 임의 초기화에 의존하는 유효 모델 용량을 제시한다.
SGD가 초기화로부터의 거리를 너비에 무관한 값으로 규제한다는 것을 실증적으로 보여준다.
초기화 의존 척도가 너비 기반 규범을 넘어서는 일반화를 설명하는 데 필요하다고 이론적으로 주장한다.
일반화를 설명하기에 초기화에 둔감한 규범들(예: 원점으로부터의 거리)의 한계를 탐구한다.

제안 방법

다음과 같이 초기화 의존적 유효 용량 兀H_{m,\u0000\u001delta}[D,(Z,C),A]兀를 SGD가 높은 확률로 도달할 수 있는 매개변수 구성의 집합으로 정의한다.
실제 라벨과 손상된 라벨에서 네트워크 너비 H와 학습 데이터 크기 m이 달라질 때 초기화로부터의 거리 r이 어떻게 변하는지 경험적으로 분석한다.
중간 크기의 H에서 r이 너비에 무관하게 유지되고, 학습 데이터 크기 m과 라벨 노이즈가 커질수록 증가한다는 것을 보여준다.
초기화로부터 고정된 거리 r 이내의 네트워크에 대해 Rademacher 복잡도 경계가 존재한다는 선형 네트워크에 대한 이론적 결과를 제공한다.
원점으로부터의 거리를 측정하는 규범이 일반화를 설명하는 데 실패할 수 있는 이유를 논의한다.
초기화, 거리 규제, 일반화 경계를 연결하는 보조정리와 추론들을 제시한다.

실험 결과

연구 질문

RQ1신경망의 유효 모델 용량이 무작위 초기화에 의존하는가?
RQ2SGD가 초기화로부터의 거리를 너비에 독립적인 값으로 암묵적으로 규제할 수 있으며, 이것이 일반화와 관련이 있는가?
RQ3초기화 의존 측정치가 일반화를 설명하는 데 원점으로부터의 거리 규범보다 더 유용한가?
RQ4초기화로부터 고정된 거리 이내에 놓이도록 제약된 네트워크에 대해 어떤 이론적 보장이 확립될 수 있는가?
RQ5초기화로부터의 거리가 너비, 데이터 규모, 라벨 노이즈에 따라 어떻게 스케일하는가?

주요 결과

초기화로부터의 이동 거리는 중간 너비에서는 대부분 너비에 독립적이며 너비가 커져도 대략 한정되는 경향이 있다.
거리 r은 라벨 노이즈와 더 큰 학습 데이터 크기에 따라 증가하여, 노이즈가 있는 데이터일수록 더 많은 memorization이 필요함을 시사한다.
선형 네트워크의 경우 초기화 기반 거리 r 이내의 네트워크에 대한 Rademacher 복잡도는 너비에 독립적인 경계가 있으며(r은 크고 네트워크 깊이에 의해 스케일한다).
원점으로부터의 거리와 연관된 노름은 너비가 커지면 커질 수 있으며 일반화를 설명하지 못할 수 있어 초기화 의존 측정치의 가치가 강조된다.
무작위 초기화만으로도 학습되지 않은 네트워크에 대해 너비에 독립적인 일반화 오차를 초래하므로 초기화 기반 용량 개념을 뒷받침한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.