QUICK REVIEW

[논문 리뷰] Simple and Effective Regularization Methods for Training on Noisily Labeled Data with Generalization Guarantee

Wei Hu, Zhiyuan Li|arXiv (Cornell University)|2019. 05. 27.

Machine Learning and Algorithms참고 문헌 37인용 수 45

한 줄 요약

이 논문은 노이즈가 있는 라벨링 데이터에서 학습 시 두 가지 간단한 정규화 기법(초기화까지의 거리와 샘플당 보조 변수)을 도입하고, NTK 기반 커널 리지 회귀와 일반화 보장을 산출함을 입증하며 MNIST와 CIFAR-10 실험으로 이를 뒷받침한다.

ABSTRACT

Over-parameterized deep neural networks trained by simple first-order methods are known to be able to fit any labeling of data. Such over-fitting ability hinders generalization when mislabeled training examples are present. On the other hand, simple regularization methods like early-stopping can often achieve highly nontrivial performance on clean test data in these scenarios, a phenomenon not theoretically understood. This paper proposes and analyzes two simple and intuitive regularization methods: (i) regularization by the distance between the network parameters to initialization, and (ii) adding a trainable auxiliary variable to the network output for each training example. Theoretically, we prove that gradient descent training with either of these two methods leads to a generalization guarantee on the clean data distribution despite being trained using noisy labels. Our generalization analysis relies on the connection between wide neural network and neural tangent kernel (NTK). The generalization bound is independent of the network size, and is comparable to the bound one can get when there is no label noise. Experimental results verify the effectiveness of these methods on noisily labeled datasets.

연구 동기 및 목표

노이즈가 섞인 라벨링 데이터에서 과다 매개변수화된 네트워크를 학습시킬 때 정규화의 필요성을 동기 부여한다.
노이즈 라벨에 대한 과적합을 제한하는 두 가지 간단한 정규화 방법을 제안한다.
넓은 네트워크에 대한 NTK 프레임워크를 통해 이론적 일반화 보장을 확립한다.
제안된 방법들이 노이즈가 있는 데이터에서 초기 중단과 동등하거나 이를 능가한다는 실험적 증거를 제시한다.

제안 방법

초기화와의 거리(RDI)에 의한 정규화는 손실에 lambda^2/2 * ||theta - theta(0)||^2 의 벌점을 추가한다.
보조 변수(AUX) 방법은 샘플당 학습 가능한 변수 b_i 를 도입하고 각 노이즈 라벨에 대해 f(theta, x_i) + lambda*b_i 를 사용하여 맞춘다.
넓은 네트워크(NTK) 영역에서 두 방법은 NTK를 이용한 커널 리지 회귀 해를 생성한다: f*(x) = k(x, X)^T (k(X, X) + lambda^2 I)^{-1} tilde_y.
동등성: 정규화된 목적 함수에 대한 경사 하강은 선형화된 NTK 회귀와 동일한 동역학을 갖는다.
다출력 설정으로의 확장은 각 출력이 해당 NTK 리지 회귀 형태를 따른다는 것을 보여준다.
이론적 분석은 NTK 근사 f(theta, x) ≈ f(theta(0), x) + phi(x)^T (theta - theta(0))와 작은 초기화에 의존한다.

실험 결과

연구 질문

RQ1과다 매개변수화된 네트워크에서 간단한 정규화 스킴이 노이즈 라벨에 대한 과적합을 방지할 수 있는가?
RQ2RDI와 AUX 정규화가 노이즈 학습 라벨 하에서 깨끗한 데이터 분포에 대한 일반화 보장을 이끌어낼 수 있는가?
RQ3이 방법들이 넓은 네트워크에서 NTK 및 커널 리지 회귀와 어떤 관련성이 있는가?
RQ4제안된 방법들이 노이즈가 있는 데이터에서의 초기 중단과 비교하여 실용적으로 효과적인가?
RQ5결과가 다중 클래스 분류 및 더 깊은 네트워크로 확장되는가?

주요 결과

RDI와 AUX 정규화 모두 넓은 네트워크 영역에서 경사 하강을 NTK와 함께 커널 리지 회귀로 이끈다.
깨끗한 데이터 분포에 대한 일반화 경계는 라벨 노이즈가 없는 경우의 경계와 비슷하고, (관찰되지 않는) 깨끗한 라벨에 의존한다.
실험적으로 RDI와 AUX는 MNIST와 CIFAR-10 전반에 걸쳐 다양한 라벨 노이즈 수준에서 초기 중단과 비슷하거나 더 나은 테스트 정확도를 달성한다.
정규화에 의해 학습 중 가중치 움직임이 줄어들어 NTK 영역의 기대와 일치한다.
AUX는 높은 노이즈에서 CIFAR-10에서 강력한 성능을 보여주며 MSE와 교차 엔트로피 손실 모두에서 경쟁력 있는 결과를 달성한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.