Skip to main content
QUICK REVIEW

[논문 리뷰] An improper estimator with optimal excess risk in misspecified density estimation and logistic regression

Jaouad Mourtada, Stéphane Gaïffas|arXiv (Cornell University)|2019. 12. 23.
Machine Learning and Algorithms참고 문헌 108인용 수 11
한 줄 요약

이 논문은 조건부 밀도 추정과 로지스틱 회귀에서 최적의 초과 위험을 달성하는, 모형 오특사용에 대해서도 성능을 유지하는 비정상 추정기인 샘플 미니맥스 예측기(SMP)를 소개한다. d/n 비례하는 새로운 초과 위험 경계를 최소화함으로써 SMP는 MLE와 같은 내부 모형 추정기보다 더 우수한 성능을 보이며, 특히 모형 오특사용 설정에서 뛰어난 성능을 발휘한다. 비점근적 보장을 제공하며, 이전의 보조적 로그 n 요소가 없는 O((d + B²R²)/n) 초과 위험을 달성한다.

ABSTRACT

We introduce a procedure for conditional density estimation under logarithmic loss, which we call SMP (Sample Minmax Predictor). This estimator minimizes a new general excess risk bound for statistical learning. On standard examples, this bound scales as $d/n$ with $d$ the model dimension and $n$ the sample size, and critically remains valid under model misspecification. Being an improper (out-of-model) procedure, SMP improves over within-model estimators such as the maximum likelihood estimator, whose excess risk degrades under misspecification. Compared to approaches reducing to the sequential problem, our bounds remove suboptimal $\log n$ factors and can handle unbounded classes. For the Gaussian linear model, the predictions and risk bound of SMP are governed by leverage scores of covariates, nearly matching the optimal risk in the well-specified case without conditions on the noise variance or approximation error of the linear model. For logistic regression, SMP provides a non-Bayesian approach to calibration of probabilistic predictions relying on virtual samples, and can be computed by solving two logistic regressions. It achieves a non-asymptotic excess risk of $O((d + B^2R^2)/n)$, where $R$ bounds the norm of features and $B$ that of the comparison parameter; by contrast, no within-model estimator can achieve better rate than $\min({B R}/{\sqrt{n}}, {d e^{BR}}/{n} )$ in general. This provides a more practical alternative to Bayesian approaches, which require approximate posterior sampling, thereby partly addressing a question raised by Foster et al. (2018).

연구 동기 및 목표

  • 모형 오특사용 하에서도 유효한 유한 표본 초과 위험 경계를 개발하는 것.
  • 모형 오특사용 설정에서 MLE와 같은 내부 모형 추정기보다 뛰어난 성능을 보이는 비정상 추정기를 제안하는 것.
  • 기존 순차 예측 기반 경계에 존재하는 비최적의 로그 n 요소를 제거하는 것.
  • 베이지안 방법이 아닌, 확률적 校정에서 사후 표본 추출의 계산 효율적인 대안을 제공하는 것.
  • 노이즈 분산이나 근사 오차에 대한 조건 없이도 로지스틱 회귀에서 최적의 초과 위험률을 달성하는 것.

제안 방법

  • 새로운 일반 초과 위험 경계를 최소화하는 비정상 추정기인 샘플 미니맥스 예측기(SMP)를 제안한다.
  • 시험 점을 학습 세트에 추가하여 가상의 표본 접근법을 사용하고, 두 개의 로지스틱 회귀를 풀어낸다.
  • 확장된 데이터셋에서 λ-정규화된 위험 최소화를 통해 예측기를 정의한다.
  • 손실 함수의 가짜 자기연속성과 정규화된 위험의 강凸성에 기반해 안정성 경계를 유도한다.
  • 위험 차이의 기대값을 제어하기 위해 교환 가능성과 트레이스 부등식을 적용한다.
  • 정규화된 위험의 헤시안과 행렬 볼록성의 성질을 활용해 초과 위험을 리지드 스코어에 따라 경계한다.

실험 결과

연구 질문

  • RQ1비정상 추정기는 오특사용된 조건부 밀도 추정에서 최적의 초과 위험을 달성할 수 있는가?
  • RQ2제안된 SMP 추정기는 순차 예측 기반 방법과 비교해 초과 위험 경계에서 비최적의 로그 n 요소를 제거하는가?
  • RQ3SMP는 로지스틱 회귀에서 보정된 확률적 예측을 위한 사후 표본 추출의 비베이지안 대안을 제공할 수 있는가?
  • RQ4일반적인 모형 오특사용 하에서 SMP의 로지스틱 회귀에서의 유한 표본 초과 위험은 무엇인가?
  • RQ5리지드 스코어는 가우시안 선형 모형에서 SMP의 위험 행동에 어떤 영향을 미치는가?

주요 결과

  • SMP는 로지스틱 회귀에서 O((d + B²R²)/n)의 초과 위험을 달성하며, 잘 지정된 조건 하에서 최적의 비율을 그대로 유지한다.
  • 초과 위험 경계는 d/n 비례로 스케일링되며, MLE와 달리 모형 오특사용 하에서도 유효하다. MLE는 위험도가 악화된다.
  • 가우시안 선형 모형에서 SMP의 위험은 리지드 스코어에 의해 결정되며, 잘 지정된 위험과 거의 동일하다.
  • 이전의 순차 예측 기반 접근법에서 존재하던 비최적의 로그 n 요소가 제거된 경계이다.
  • SMP는 사후 표본 추출의 근사화를 피하면서 가상 표본을 통해 비베이지안 방법으로 보정된 확률적 예측을 제공한다.
  • 선형 모형에서 노이즈 분산이나 근사 오차에 대한 가정 없이도 최적의 초과 위험을 달성한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.