QUICK REVIEW

[논문 리뷰] Gradient Descent with Early Stopping is Provably Robust to Label Noise for Overparameterized Neural Networks

Mingchen Li, Mahdi Soltanolkotabi|arXiv (Cornell University)|2019. 03. 27.

Machine Learning and Data Classification참고 문헌 47인용 수 155

한 줄 요약

논문은 clusterable 데이터 모델하에서 한 은닉층이 있는 과대매개변수화 네트워크에서 초기 중단이 있는 경사하강법이 라벨 노이즈에 대해 강건함을 제공함을 입증한다. 최종 모델이 초기화에 가까이 남아 있고, 큰 움직임이 필요해지기 전까지 손상된 라벨을 무시한다는 것을 보여줌으로써 얻어진다.

ABSTRACT

Modern neural networks are typically trained in an over-parameterized regime where the parameters of the model far exceed the size of the training data. Such neural networks in principle have the capacity to (over)fit any set of labels including pure noise. Despite this, somewhat paradoxically, neural network models trained via first-order methods continue to predict well on yet unseen test data. This paper takes a step towards demystifying this phenomena. Under a rich dataset model, we show that gradient descent is provably robust to noise/corruption on a constant fraction of the labels despite overparameterization. In particular, we prove that: (i) In the first few iterations where the updates are still in the vicinity of the initialization gradient descent only fits to the correct labels essentially ignoring the noisy labels. (ii) to start to overfit to the noisy labels network must stray rather far from from the initialization which can only occur after many more iterations. Together, these results show that gradient descent with early stopping is provably robust to label noise and shed light on the empirical robustness of deep networks as well as commonly adopted heuristics to prevent overfitting.

연구 동기 및 목표

초기 방법으로 학습된 과대매개변수화 네트워크가 라벨 노이즈가 존재하는 상황에서 일반화하는 이유를 동기 부여하고 분석한다.
라벨의 일정 비율의 손상에 대해 경사하강법의 초기 중단의 강건성을 이론적 프레임워크로 보여준다.
초기화로부터의 거리와 강건성 대 과적합 사이의 관계를 특징짓는다.
초기 중단이 과적합을 방지하고 올바른 라벨 복구를 가능하게 하는 조건을 제시한다.

제안 방법

모델: 출력 가중치가 고정된 k 은닉 유닛을 가진 한 은닉층 신경망이며, 제곱 손실에 대한 경사하강법으로 학습된다.
데이터: K개의 군집으로 구성된 클러스터 가능 데이터세트, K̄ ≤ K 클래스까지 가능, 각 군집에 대해 손상/오염된 라벨은 ρ로 정의된 손상 비율을 갖는다.
핵심 도구: 클러스터 중심 C와 활성화 편미분으로 구성된 신경망 공분산 Σ(C), 고유값 최소치 λ(C)가 클래스 구분성을 나타낸다.
η = constant × K/(n) × 1/||C||^2의 보폭으로 경사하강법을 수행하면 T번의 반복 이후 초기화의 근방에서 해를 얻고, 근접한 군집 입력에 대해 실제 라벨을 올바르게 예측한다.
잔여(residual)는 큰 특이 벡터 공간에 정렬된 깨끗한 잔여와 작은 부분공간의 노이즈 잔여로 분해되어 초기화에 대한 거리와의 관련성 속에서 초기 중단 하의 강건성을 이끈다.
노이즈 라벨을 과적합하려면 초기화로부터 멀리 이동해야 한다는 점을 보여주며, 초기화로부터의 거리와 강건성의 관계를 강조한다.

실험 결과

연구 질문

RQ1초기 중단이 있는 경사하강법이 과대매개변수화 네트워크에서 라벨 노이즈가 존재하는 상황에서도 올바른 라벨을 학습하도록 증명적으로 보일 수 있는가?
RQ2데이터 기하학적 구조가 군집 중심과 신경망 공분산 λ(C)을 통해 손상된 라벨에 대한 강건성에 어떤 영향을 미치는가?
RQ3초기화로부터의 이동 거리가 노이즈 라벨에 대한 과적합 방지에 어떤 역할을 하는가?
RQ4군집 중심 근처 입력에 대해 올바른 예측을 보존하면서 얼마나 많은 라벨 손상을 허용할 수 있는가?

주요 결과

초기 중단이 있는 경사하강법은 일정한 비율의 손상된 라벨에 대해 여전히 강건하며, 군집 중심 근처의 입력에 대해 올바른 라벨 예측을 달성한다.
최종 파라미터가 초기화에 가까이 있어야 하며, 멀리 이동하는 것은 노이즈 라벨에 대한 과적합과 연관된다.
주어진 데이터 세트 및 네트워크 조건 하에서 강건성은 높은 확률로 유지되며, ρ ≤ δ/8의 위에 바운드가 포함된다.
강건성을 달성하는 반복 수는 λ(C)와 ||C||를 통해 데이터 기하학에 비례하고, 일반적으로 조건화에 따라 O(K) 수준이다.
완만한 정규화 하에, 강건성과 최종 예측 정확도는 네트워크 크기에 의존하지 않고 군집 구조와 초기화로부터의 거리 의존한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.