QUICK REVIEW

[논문 리뷰] Uniform convergence may be unable to explain generalization in deep learning

Vaishnavh Nagarajan, J. Zico Kolter|arXiv (Cornell University)|2019. 02. 13.

Stochastic Gradient Optimization Techniques참고 문헌 39인용 수 42

한 줄 요약

이 논문은 uniform-convergence 기반 일반화 경계가 gradient descent로 학습된 과매개변수 모델에서 공허할 수 있음을 주장하고, 알고리즘 의존적 설정에서도 경험적 및 이론적 실패를 보여준다.

ABSTRACT

Aimed at explaining the surprisingly good generalization behavior of overparameterized deep networks, recent works have developed a variety of generalization bounds for deep learning, all based on the fundamental learning-theoretic technique of uniform convergence. While it is well-known that many of these existing bounds are numerically large, through numerous experiments, we bring to light a more concerning aspect of these bounds: in practice, these bounds can {\em increase} with the training dataset size. Guided by our observations, we then present examples of overparameterized linear classifiers and neural networks trained by gradient descent (GD) where uniform convergence provably cannot "explain generalization" -- even if we take into account the implicit bias of GD {\em to the fullest extent possible}. More precisely, even if we consider only the set of classifiers output by GD, which have test errors less than some small $ε$ in our settings, we show that applying (two-sided) uniform convergence on this set of classifiers will yield only a vacuous generalization guarantee larger than $1-ε$. Through these findings, we cast doubt on the power of uniform convergence-based generalization bounds to provide a complete picture of why overparameterized deep networks generalize well.

연구 동기 및 목표

고전적 균등 수렴 설명을 넘어 과매개변수화된 심층 네트워크가 왜 잘 일반화하는지 동기를 부여한다.
일반적으로 사용되는 균등 수렴 기반 경계가 기대하는 것처럼 감소하기보다 학습 데이터 크기와 함께 증가한다는 것을 경험적으로 보여준다.
경사하강의 암시적 바이어스를 고려하더라도 2측 균등 수렴 경계가 일반화를 설명할 수 없다는 이론적 구성들을 제공한다.
딥 러닝에서 일반화를 이해하기 위한 도구로서의 균등 수렴의 근본적 한계를 강조한다.

제안 방법

MNIST에서 SGD(lr=0.1, 배치 크기 1)로 학습된 완전 연결 네트워크(깊이 5, 너비 1024)에서 가중치 노름과 일반화에 대한 경험적 분석을 gamma* = 10의 여유를 가지며 99% 정확도까지 수행.
초기화로부터의 거리와 스펙트럴 노름의 곱이 데이터 크기 m에 따라 커지는 관찰(각각 적어도 m^0.4와 m).
이전 연구의 기존 일반화 경계를 평가하여 분자 항이 m과 함께 증가함에 따라 Ω(m^0.68)로 증가하는 경계가 나타남을 보인다.
그래디언트 디센트로 학습된 고차원 선형 분류기 및 신경망에 대해 양방향 균등 수렴이 이론적으로 공허하다고 입증되는 구성들을 제시한다.
가장 엄밀한 알고리즘 의존적 균등 수렴(알고리즘이 탐색하는 가설 집합에서의)을 정의하고 이를 활용하여 일반화를 설명하는 균등 수렴의 한계를 논한다.

실험 결과

연구 질문

RQ1Gradient descent로 학습된 과매개변수화 모델에 대해 균등 수렴 경계가 비공허한 일반화 보장을 제공할 수 있는가?
RQ2많은 경계에서 사용되는 가중치 노름 기반 양이 실제로 학습 데이터 크기가 증가함에 따라 감소하여 관찰된 일반화 성능과 일치하는가?
RQ3현실적인 딥러닝 설정에서도 알고리즘 의존적(가장 엄밀한) 균등 수렴 경계가 여전히 공허한가?
RQ4과매개변수화된 신경망의 일반화 행동을 포착하는 데 균등 수렴이 갖는 근본적 한계는 무엇인가?

주요 결과

초기화로부터의 거리 및 스펙트럴 노름의 곱과 같은 가중치 노름은 학습 데이터 크기 m에 따라 증가한다(다항 성장을 보이며 각각 최소 m^0.4와 m).
일반화 테스트 오류는 m이 커질수록 감소하지만(특정 설정에서 대략 1/m^0.43), 해당 경계의 분자 항은 m과 함께 증가하여 경계가 증가하게 된다(Ω(m^0.68)).
알고리즘이 탐색한 가장 작은 가설 클래스(가장 엄밀한 균등 수렴)로 가지치기를 해도 일반화 보장은 거의 공허하며(작은 ε에 대해 경계가 1에 가까움).
그래디언트 디센트/SGD로 학습된 과매개변수 선형 분류기 및 신경망에서 양방향 균등 수렴 경계가 일반화를 설명하지 못한다, 암시적 규제를 포함하더라도.
개념적으로 다른 한 방향의 PAC-Bayes 경계도 이러한 설정에서 거의 공허한 보장으로 축소된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.