Skip to main content
QUICK REVIEW

[논문 리뷰] Classification vs regression in overparameterized regimes: Does the loss function matter?

V. Sai Muthukumar, Adhyyan Narang|arXiv (Cornell University)|2020. 05. 16.
Face and Expression Recognition참고 문헌 59인용 수 46
한 줄 요약

이 논문은 가우시안 특징을 갖는 매우 과도파라미터화된 선형 모델에서 학습 손실(힌지, 로지스틱, 제곱)이 동일한 보간자를 산출하는 반면 테스트 손실은 다르게 작용한다: 0-1 손실은 분류에 대해 제곱 손실이 회귀에서 좋지 않게 일반화될 때도 일반화될 수 있다.

ABSTRACT

We compare classification and regression tasks in an overparameterized linear model with Gaussian features. On the one hand, we show that with sufficient overparameterization all training points are support vectors: solutions obtained by least-squares minimum-norm interpolation, typically used for regression, are identical to those produced by the hard-margin support vector machine (SVM) that minimizes the hinge loss, typically used for training classifiers. On the other hand, we show that there exist regimes where these interpolating solutions generalize well when evaluated by the 0-1 test loss function, but do not generalize if evaluated by the square loss function, i.e. they approach the null risk. Our results demonstrate the very different roles and properties of loss functions used at the training phase (optimization) and the testing phase (generalization).

연구 동기 및 목표

  • 가우시안 특징을 갖는 선형 모델을 사용하여 과도파라미터화에서의 분류와 회귀 간 차이를 동기 부여하고 분석한다.
  • 충분한 과도파라미터화 하에서 hinge/logistic/square 손실로의 학습이 최소-노름 보간과 동등해진다는 것을 보인다.
  • 시험 손실의 선택(0-1 대 제곱)이 일반화에 어떤 영향을 미치는지 조사하고, 분류가 잘 일반화되는 반면 회귀는 그렇지 않은 영역을 강조한다.
  • 분류 작업에 대해 SVM과 최소-ℓ2-노름 보간기를 연결하는 비점대적(non-asymptotic) 분석을 제공한다.

제안 방법

  • 가우시안 특징을 갖는 과도파라미터화된 선형 예측기와 함께 모델 설정.
  • 이진 라벨에 대한 보간 해(최소-ℓ2-노름)와 실수 출력에 대한 보간 해(최소-ℓ2-노름)를 정의한다.
  • 충분한 유효 과도파라미터화에서 hard-margin SVM과 최소-ℓ2-노름 보간 사이의 등가를 보인다(정리 11).
  • 보간 해가 분류 대 회귀에서 언제 일반화되는지 분석하기 위해 푸리에/신호처리 해석을 확장한다(정리 13).
  • 등방성 및 이계층 앙상블을 분석하여 과도파라미터화와 특징 스펙트럼이 일반화에 미치는 영향을 연구한다.

실험 결과

연구 질문

  • RQ1과도파라미터화가 학습 손실(힌지, 로지스틱, 제곱)을 동일한 보간 예측기로 이끄는가?
  • RQ2과도파라미터화된 영역에서 테스트 손실(0-1 대 제곱)이 분류 대 회귀의 일반화에 어떻게 영향을 미치는가?
  • RQ3분류 작업에서 hard-margin SVM과 최소-ℓ2-노름 보간기가 일치하는 조건은 무엇인가?
  • RQ4특징 스펙트럼과 이방성이 분류 및 회귀에서 보간 예측기의 일반화에 어떤 영향을 미치는가?
  • RQ5최소-ℓ2-노름 보간기가 분류에는 잘 일반화되지만 회귀에는 그렇지 않은 영역이 존재할 수 있는가?

주요 결과

  • 충분히 과도파라미터화된 환경에서 모든 학습 점이 서포트 벡터가 되어 힌지, 로지스틱, 제곱 손실이 같은 보간자를 산출하게 된다(라벨에 대한 최소-ℓ2-노름).
  • 테스트 0-1 손실이 분류에서 잘 일반화되는 반면 회귀에서 제곱 손실의 일반화는 미약한 영역이 존재한다(무위험에 가까움).
  • 강한 과도파라미터화 하에서 hard-margin SVM과 최소-ℓ2-노름 보간자는 높은 확률로 등가이다(정리 11).
  • 인터폴레이션 기반 예측기가 힌지가 아닌 손실로 학습되었더라도 분류에서 일반화될 수 있으며, 과도파라미터화된 모델에서 일반화에 마진 기반 설명이 충분하다는 개념에 도전한다.
  • 푸리에/신호처리 관점은 최근의 회귀 분석을 분류와 연결하고 분류 보간기에 대한 비점근적 경계를 제공한다.
  • 이 연구는 과도파라미터화된 영역에서 학습 단계 손실과 테스트 단계 손실이 서로 다른 역할을 함을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.