QUICK REVIEW

[논문 리뷰] Do We Need Zero Training Loss After Achieving Zero Training Error?

Takashi Ishida, Ikko Yamane|arXiv (Cornell University)|2020. 02. 20.

Quality and Safety in Healthcare참고 문헌 55인용 수 61

한 줄 요약

본 논문은 flooding이라는 정규화 기법을 제안한다. 이 기법은 간단한 |J(θ)−b|+b 목표를 사용해 학습 손실을 작은 flood 수준 값 주위로 유지하고 이는 일반화 성능을 향상시키고 테스트 손실의 이중 하강(double descent)을 유도할 수 있다.

ABSTRACT

Overparameterized deep networks have the capacity to memorize training data with zero \emph{training error}. Even after memorization, the \emph{training loss} continues to approach zero, making the model overconfident and the test performance degraded. Since existing regularizers do not directly aim to avoid zero training loss, it is hard to tune their hyperparameters in order to maintain a fixed/preset level of training loss. We propose a direct solution called \emph{flooding} that intentionally prevents further reduction of the training loss when it reaches a reasonably small value, which we call the \emph{flood level}. Our approach makes the loss float around the flood level by doing mini-batched gradient descent as usual but gradient ascent if the training loss is below the flood level. This can be implemented with one line of code and is compatible with any stochastic optimizer and other regularizers. With flooding, the model will continue to "random walk" with the same non-zero training loss, and we expect it to drift into an area with a flat loss landscape that leads to better generalization. We experimentally show that flooding improves performance and, as a byproduct, induces a double descent curve of the test loss.

연구 동기 및 목표

오버파라미터화된 네트워크에서 학습 손실이 0에 도달하는 상황에서의 과적합 문제를 제기한다.
0이 아닌 flood 레벨을 강제해 학습 손실을 직접 제어하는 방법을 도입한다.
플로딩이 표준 옵티마이저 및 다른 정규화 기법들과의 호환성을 보인다.
합성 데이터 및 벤치마크 데이터셋에서 플로딩을 경험적으로 평가하여 일반화 이득을 평가한다.

제안 방법

플로딩된 목적함수를 정의한다: ϑJ(θ)=|J(θ)−b|+b, 여기서 b>0는 flood 레벨이다.
그래디언트를 해석한다: J> b일 때는 중력(최소화)이고 J< b일 때는 부력(상승)이다.
J(θ) 계산 후 한 줄의 코드 수정과 함께 미니배치 업데이트로 구현한다.
b를 하이퍼파라미터로 취급하고 검증 정확도를 최적화하기 위해 병렬로 탐색한다.
플로딩이 다른 정규화 기법(예: 조기 중단, 가중치 감소, 데이터 증강)과 결합될 수 있음을 보여준다.
이론적 주: 특정 조건에서 플로드 리스크 추정기가 원래 것보다 평균제곱오차가 더 낮다.

실험 결과

연구 질문

RQ1플로딩을 통해 비제로 학습 손실을 유지하는 것이 표준 학습에 비해 일반화를 향상시키는가?
RQ2플로딩 수준 b를 어떻게 선택해야 하며, 이것이 Bayes 리스크 및 데이터셋 난이도와 어떤 관계가 있는가?
RQ3플로딩이 다른 정규화 기법 및 훈련 전략(조기 중단, 데이터 증강 등)과 어떤 상호작용을 보이는가?
RQ4플로딩이 테스트 손실에서 이중 하강과 같은 관측 가능한 현상을 생성하는가, 그 메커니즘은 무엇인가?

주요 결과

플로딩은 합성 데이터 및 벤치마크 데이터셋 전반에서 플로딩 없이 비교대상(Base라인)보다 테스트 정확도를 자주 향상시킨다.
최적의 flood 레벨은 레이블 노이즈가 증가함에 따라 증가하는 경향이 있어 flood 레벨과 Bayes 리스크 사이의 관계를 시사한다.
플로딩이 다른 정규화 기법과 결합된 경우 일반적으로 상호 보완적 이득을 제공하고 테스트 손실에서 이중 하강을 재현할 수 있다.
검증으로 선택된 flood 레벨에서 여전히 암기(제로 학습 오차)가 발생할 수 있지만, 더 높은 flood 레벨은 제로 학습 손실을 방지한다.
플로딩을 사용한 학습은 종종 더 평탄한 테스트 손실 곡선과 더 작은 그래디언트 진폭을 초래하여 더 나은 일반화 역학을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.