Skip to main content
QUICK REVIEW

[논문 리뷰] The generalization error of max-margin linear classifiers: Benign overfitting and high dimensional asymptotics in the overparametrized regime

Andrea Montanari, Feng Ruan|arXiv (Cornell University)|2019. 11. 05.
Neural Networks and Applications참고 문헌 56인용 수 90
한 줄 요약

이 논문은 과매parametrized 설정에서 최대 마진 선형 분류기의 일반화 오차에 대한 정확한 고차원 극한을 도출하고, 양성 과적합(benign overfitting) 조건을 규명하며, 랜덤 피처 모델을 분석한다.

ABSTRACT

Modern machine learning classifiers often exhibit vanishing classification error on the training set. They achieve this by learning nonlinear representations of the inputs that maps the data into linearly separable classes. Motivated by these phenomena, we revisit high-dimensional maximum margin classification for linearly separable data. We consider a stylized setting in which data $(y_i,{\boldsymbol x}_i)$, $i\le n$ are i.i.d. with ${\boldsymbol x}_i\sim\mathsf{N}({\boldsymbol 0},{\boldsymbol Σ})$ a $p$-dimensional Gaussian feature vector, and $y_i \in\{+1,-1\}$ a label whose distribution depends on a linear combination of the covariates $\langle {\boldsymbol θ}_*,{\boldsymbol x}_i angle$. While the Gaussian model might appear extremely simplistic, universality arguments can be used to show that the results derived in this setting also apply to the output of certain nonlinear featurization maps. We consider the proportional asymptotics $n,p o\infty$ with $p/n o ψ$, and derive exact expressions for the limiting generalization error. We use this theory to derive two results of independent interest: $(i)$ Sufficient conditions on $({\boldsymbol Σ},{\boldsymbol θ}_*)$ for `benign overfitting' that parallel previously derived conditions in the case of linear regression; $(ii)$ An asymptotically exact expression for the generalization error when max-margin classification is used in conjunction with feature vectors produced by random one-layer neural networks.

연구 동기 및 목표

  • 학습 오차가 소멸하는 고차원, 과매개변수화(regimes)에서의 max-margin 분류기에 대한 연구를 동기화한다.
  • 가우시안 특징 모형 아래에서 이러한 분류기가 언제 잘 일반화하는지(benign overfitting)를 특징화한다.
  • 일반화 오차와 보간 임계치에 대한 명시적 극한 공식을 제공한다.
  • 랜덤 피처 모델과 넓은 신경망-영감 피처화에 결과를 확장한다.
  • 공분산 구조와 신호 정렬이 일반화 동작을 좌우하는 조건을 제시한다.

제안 방법

  • 데이터가 i.i.d.이고 가우시안 특징 x_i ~ N(0, Σ)이며 레이블 y_i가 f(⟨θ*, x_i⟩)를 통해 분포한다고 가정한다.
  • n, p → ∞이고 p/n → ψ인 비례적 점근을 채택한다.
  • 가우시안 등가 모형과 보편성(유니버설리티) 논거를 통해 max-margin 분류기의 극한 일반화 오차 Err*(μ, ψ)를 도출한다.
  • 양의 마진이 가능한 보간 임계값 ψ*(μ)를 특징지운다.
  • 랜덤 피처 모델에서 특징이 단일 무작위 은닉층의 출력을 이루는 경우를 분석하고 보편성을 적용해 정확한 점근 값을 얻는다.
  • Gordon의 가우시안 비교 프레임워크를 사용해 문제를 거의 구분 가능한(convex-concave) 형태로 축소하고 비선형 방정식 체계를 추출한다.

실험 결과

연구 질문

  • RQ1가우시안 특징하에서의 고차원, 과매parametrized 설정에서 max-margin 선형 분류기의 극한 일반화 오차는 무엇인가?
  • RQ2max-margin 분류에 대한 benign overfitting을 산출하는 Σ와 θ*의 충분하고 필요한 조건은 무엇인가?
  • RQ3양의 마진의 보간 임계치(양의 마진이 가능한 최소 p/n)가 데이터 공분산 및 신호 구조에 어떻게 의존하는가?
  • RQ4점근 결과가 랜덤 피처 모델과 넓은 신경망(regimes)에 확장되는가?
  • RQ5가우시안 등가 접근법이 ridge 회귀를 넘어서 마진과 오차에 대해 정확한 예측을 제공할 수 있는가?

주요 결과

  • 마진과 예측 오차는 n → ∞일 때 확률적으로 비무작위 극한 κ*(μ, ψ)와 Err*(μ, ψ)로 수렴한다.
  • 특정 스펙트럼 및 정렬 조건에서 Σ와 θ*에 대해 benign overfitting이 발생하며, 이는 선형 회귀에 대해 알려진 결과를 반영한다.
  • 연구 대상 고차원 영역에서 max-margin 분류기가 근사 베이즈 오차를 달성하려면 과매개변수화(큰 ψ)가 필요하다.
  • 랜덤 피처 모델에서 테스트 오차는 너비 p가 증가함에 따라 감소하고 p/n ≫ 1인 큰 과매parameterization 한도에서 최소가 된다.
  • 해당 분석은 초과 오차가 작은 것을 이끄는 바이어스 유사 항 B_n(λ)과 분산 유사 항 V_n(λ)을 명시적으로 제공하고, 적절한 매개변수 선택에 대해 ε-일관성 결과를 제시한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.