Skip to main content
QUICK REVIEW

[논문 리뷰] Optimal ridge penalty for real-world high-dimensional data can be zero or negative due to the implicit ridge regularization

Dmitry Kobak, Jonathan Lomond|arXiv (Cornell University)|2018. 05. 28.
Statistical Methods and Inference참고 문헌 38인용 수 24
한 줄 요약

이 논문은 고차원, 과소결정된 설정(n ≪ p)에서 선형 회귀의 최적 릿지 페널티가 음수일 수도 있으며, 이는 저분산 예측 변수 방향에서의 암묵적 릿지 정규화 때문임을 보여준다. 최소노름 최소제곱 추정량은 일반적으로 명시적 정규화 없이도 잘 일반화되며, 이는 대규모 모델이 과오차를 방지하기 위해 강한 정규화가 반드시 필요하다는 전통적 통념을 도전한다.

ABSTRACT

A conventional wisdom in statistical learning is that large models require strong regularization to prevent overfitting. Here we show that this rule can be violated by linear regression in the underdetermined $n\ll p$ situation under realistic conditions. Using simulations and real-life high-dimensional data sets, we demonstrate that an explicit positive ridge penalty can fail to provide any improvement over the minimum-norm least squares estimator. Moreover, the optimal value of ridge penalty in this situation can be negative. This happens when the high-variance directions in the predictor space can predict the response variable, which is often the case in the real-world high-dimensional data. In this regime, low-variance directions provide an implicit ridge regularization and can make any further positive ridge penalty detrimental. We prove that augmenting any linear model with random covariates and using minimum-norm estimator is asymptotically equivalent to adding the ridge penalty. We use a spiked covariance model as an analytically tractable example and prove that the optimal ridge penalty in this case is negative when $n\ll p$.

연구 동기 및 목표

  • 고차원 설정(n ≪ p)에서 대규모 모델이 항상 과오차를 방지하기 위해 강한 양의 정규화가 필요하다는 전통적 믿음을 도전하기 위해.
  • 과소결정 선형 회귀에서 최소노름 최소제곱 추정량의 일반화 성능을 조사하기 위해.
  • 명시적 릿지 정규화(λ > 0)가 성능 향상에 실패하는 조건을 규명하기 위해.
  • 응답 변수가 예측 변수 공간의 고분산 방향에서 예측될 경우 최적의 릿지 페널티가 음수가 될 수 있음을 공식적으로 증명하기 위해.
  • 임의의 공변수를 추가하고 최소노름 추정량을 사용하는 것과 최소노름 추정량을 통한 암묵적 릿지 정규화 사이의 이론적 및 실증적 연결을 수립하기 위해.

제안 방법

  • 다양한 릿지 페널티 하에서 일반화 성능을 평가하기 위해 시뮬레이션과 실제 고차원 데이터셋(예: 유전체학, 화학계량학)을 사용한다.
  • 스피iked 공분산 모델을 유도하고 분석하여 n ≪ p 조건에서 최적의 릿지 페널티가 음수가 될 수 있음을 분석적으로 보여준다.
  • 선형 모델에 임의의 공변수를 추가하고 최소노름 추정량을 사용하는 것이 渐近적으로 릿지 정규화를 적용하는 것과 동일하다는 것을 증명한다.
  • 커널 기법을 활용하여 최소노름 OLS 추정량이 커널 형태로 표현될 수 있음을 보여주며, 이는 무한차원 특징 공간으로의 확장을 가능하게 한다.
  • 초기값이 0인 경사하강법이 최소노름 해로 수렴함을 보여주며, 최적화 역학과 암묵적 정규화를 연결한다.
  • 다양한 데이터 환경에서 릿지 회귀(λ ≥ 0)의 위험(일반화 오차)을 최소노름 OLS 추정량(λ = 0)과 비교한다.

실험 결과

연구 질문

  • RQ1고차원 설정에서 최소노름 최소제곱 추정량이 양의 페널티를 가진 릿지 회귀보다 우월한 조건은 무엇인가?
  • RQ2고차원 선형 회귀에서 최적의 릿지 페널티가 음수가 될 수 있으며, 만약 그렇다면 그 이유는 무엇인가?
  • RQ3저분산 예측 변수 방향에서의 암묵적 릿지 정규화가 n ≪ p 상황에서 모델의 일반화에 어떤 영향을 미치는가?
  • RQ4최소노름 추정량에서 임의의 공변수를 추가하는 것과 암묵적 릿지 정규화 사이의 관계는 무엇인가?
  • RQ5왜 고차원 데이터에서는 양의 릿지 정규화가 전통적 직관과는 반대로 성능을 떨어뜨릴 수 있는가?

주요 결과

  • 고차원, 과소결정 설정(n ≪ p)에서 최소노름 최소제곱 추정량(λ = 0)은 양의 페널티를 가진 릿지 회귀보다 잘 또는 동일하게 일반화될 수 있다.
  • 응답 변수가 예측 변수 공간의 고분산 방향에서 예측될 경우 최적의 릿지 페널티는 음수가 될 수 있으며, 이는 추가적인 양의 정규화가 해로울 수 있음을 의미한다.
  • 저분산 예측 변수 방향과 최소노름 제약 조건이 결합되어 암묵적 릿지 정규화를 제공하며, 이는 명시적 양의 릿지 페널티를 초월할 수 있다.
  • 스피iked 공분산 모델을 통해 n ≪ p 이면서 신호가 고분산 방향에 있을 경우 최적의 릿지 페널티가 음수가 됨을 분석적으로 확인한다.
  • 선형 모델에 임의의 공변수를 추가하고 최소노름 추정량을 사용하는 것은 특정 페널티를 가진 릿지 정규화와 渐近적으로 동일하다.
  • 실제 데이터셋과 시뮬레이션 결과를 통해 양의 릿지 정규화가 최소노름 해를 초월해 일반화 성능을 향상시키지 못하는 경우가 자주 발생함을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.