QUICK REVIEW

[논문 리뷰] In Defense of Uniform Convergence: Generalization via derandomization with an application to interpolating predictors

Jeffrey Negrea, Gintare Karolina Dziugaite|arXiv (Cornell University)|2019. 12. 09.

Neural Networks and Applications인용 수 23

한 줄 요약

이 논문은 오버파ram터화된 학습에서 일반화를 위한 도구로 균일 수렴을 방어하기 위해, 보간 모델에서 유도된 대체 예측기( surrogate predictors)를 구성하는 디랜덤화 프레임워크를 제안한다. 기존 예측기가 엄밀한 균일 경계를 갖지 못하더라도, 그 조건부 기대값(디랜덤화된 버전)은 구조적 글리벤코-칸테lli 클래스에 속하며, 이는 균일 일반화 경계를 가능하게 하고, 최소 노름 선형 해와 같은 보간 추정기에서 낮은 위험을 설명한다.

ABSTRACT

We propose to study the generalization error of a learned predictor $\\hat h$ in terms of that of a surrogate (potentially randomized) predictor that is coupled to $\\hat h$ and designed to trade empirical risk for control of generalization error. In the case where $\\hat h$ interpolates the data, it is interesting to consider theoretical surrogate classifiers that are partially derandomized or rerandomized, e.g., fit to the training data but with modified label noise. We also show that replacing $\\hat h$ by its conditional distribution with respect to an arbitrary $\\sigma$-field is a convenient way to derandomize. We study two examples, inspired by the work of Nagarajan and Kolter (2019) and Bartlett et al. (2019), where the learned classifier $\\hat h$ interpolates the training data with high probability, has small risk, and, yet, does not belong to a nonrandom class with a tight uniform bound on two-sided generalization error. At the same time, we bound the risk of $\\hat h$ in terms of surrogates constructed by conditioning and denoising, respectively, and shown to belong to nonrandom classes with uniformly small generalization error.

연구 동기 및 목표

기존의 균일 수렴 경계가 실패하는 것을 보여주지만, 훈련 데이터를 보간하는 오버파ram터화된 모델에서 일반화를 설명하는 데 도전하는 것.
원래 예측기를 조건부 기대 또는 노이즈 제거를 통해 대체 예측기로 변환함으로써 균일 수렴이 여전히 효과적임을 보여주는 것.
복잡도가 증가하는 학습 문제의 시퀀스에 대해 구조적 글리벤코-칸테lli 클래스의 개념을 체계화하여, 고전적 균일 수렴을 오버파라미터화된 설정으로 확장하는 것.
Bartlett 등(2019)이 제시한 조건과 동일한 유리한 조건 하에서 구조적 글리벤코-칸테lli 성질을 증명함으로써 이전 연구의 기술적 격차를 메우고, 그들의 위험 경계의 타당성을 복원하는 것.
원래 예측기가 균일 경계를 갖지 못하더라도, 그 디랜덤화된 대체 예측기의 위험을 경계하는 이론적 프레임워크를 제공하는 것.

제안 방법

학습된 보간 예측기를 주어진 임의의 σ-필드에 대한 조건부 기대값으로 대체함으로써, 비랜덤 대체 예측기를 도출하는 디랜덤화 전략을 제안한다.
복잡도가 증가하는 학습 문제의 시퀀스에 대해 구조적 글리벤코-칸테lli(GC) 클래스의 개념을 도입하여, 고전적 균일 수렴을 오버파라미터화된 설정으로 일반화한다.
오버파라미터화된 선형 회귀에서 최소 노름 보간 해에 대해 이 접근법을 적용하며, 원래 예측기는 균일 경계를 실패하지만, 레이블 노이즈를 제거한 디노이징 대체 예측기는 구조적 GC 성질을 만족함을 보인다.
표본 공분산 행렬에 대한 농도 부등식(Koltchinskii & Lounici, 2017)을 사용하여, 대체 예측기의 일반화 오차가 균일하게 경계됨을 증명한다.
일반화 오차를 세 가지 성분으로 분해한다: (1) 청소된 데이터에서의 대체 예측기의 위험, (2) 청소된 데이터에서 대체 예측기와 원래 예측기의 차이, (3) 노이즈가 있는 데이터에서 원래 예측기와 대체 예측기의 차이.
각 성분을 별도로 경계함으로써 위험 경계를 유도하며, 이는 고확률 농도 결과와 공분산 행렬의 트레이스 노름을 활용한다. 최종적으로 기대 위험 경계는 σ²√(r₀(Σₙ)/n)의 순서가 된다.

실험 결과

연구 질문

RQ1원래의 균일 수렴 경계를 위반하는 보간 모델에서 균일 수렴이 여전히 일반화를 설명할 수 있는가?
RQ2보간 모델의 디랜덤화된 대체 예측기가 균일하게 작은 일반화 오차를 갖는 클래스에 속하려면 어떤 조건이 필요한가?
RQ3유리한 공분산 조건 하에서 최소 노름 보간 해에서 유도된 대체 예측기의 구조적 글리벤코-칸테lli 성질을 확립할 수 있는가?
RQ4보간 예측기의 위험과 그 디랜덤화된 대체 예측기의 위험 간 관계는 무엇이며, 이 관계를 통해 날카운 기대 위험 경계를 도출할 수 있는가?
RQ5레이블 노이즈 제거와 조건부 기대값은 원래로는 균일 경계를 만족하지 못하는 예측기의 균일 수렴을 가능하게 하는 데 어떤 역할을 하는가?

주요 결과

Bartlett 등(2019)의 유리한 조건 하에서, 최소 노름 보간 해에서 레이블 노이즈를 제거한 대체 예측기는 구조적 글리벤코-칸테lli 클래스에 속하며, 이는 그들의 균일 수렴 논증의 타당성을 복원한다.
원래 보간 예측기의 기대 일반화 오차는 O(σ²√(r₀(Σₙ)/n))로 경계되며, 여기서 r₀(Σₙ)는 특성 공분산 행렬의 유효 랭크이다.
원래 예측기 ˆβ의 위험은 기대값으로 다음 세 성분의 합으로 경계된다: E[LS(ˆβ₀) − LS(ˆβ)] = σ², E[LD(ˆβ) − LD(ˆβ₀)] = O(σ² log(1/δ)(k*/n + n/Rk*(Σₙ))), E[LD(ˆβ₀) − LS(ˆβ₀)] = O(σ²√(r₀(Σₙ)/n)).
조건부 기대값으로 정의된 디랜덤화된 대체 예측기(ˆβ에 대한 데이터 조건부 기대값)는 균일하게 작은 일반화 오차를 가지며, 이는 균일 수렴을 통한 날카운 위험 경계를 가능하게 한다.
이 논문은 이전 연구의 기술적 오류를 수정하며, Bartlett 등(2019)과 동일한 유리한 조건 하에서 구조적 GC 성질을 증명함으로써, 위험 경계가 타당함을 보장한다.
이 프레임워크는 원래 모델이 균일 경계를 갖지 못하더라도, 그 디랜덤화된 버전이 갖는다는 점을 보여주며, 더불어 더블 디센트 영역에서의 일반화를 이론적으로 설명하는 데 성공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.