QUICK REVIEW

[논문 리뷰] Optimal ridge penalty for real-world high-dimensional data can be zero or negative due to the implicit ridge regularization

Dmitry Kobak, Jonathan Lomond|arXiv (Cornell University)|2018. 05. 28.

Statistical Methods and Inference참고 문헌 38인용 수 24

한 줄 요약

이 논문은 고차원, 과소결정된 설정(n ≪ p)에서 선형 회귀의 최적 릿지 페널티가 음수일 수도 있으며, 이는 저분산 예측 변수 방향에서의 암묵적 릿지 정규화 때문임을 보여준다. 최소노름 최소제곱 추정량은 일반적으로 명시적 정규화 없이도 잘 일반화되며, 이는 대규모 모델이 과오차를 방지하기 위해 강한 정규화가 반드시 필요하다는 전통적 통념을 도전한다.

ABSTRACT

A conventional wisdom in statistical learning is that large models require strong regularization to prevent overfitting. Here we show that this rule can be violated by linear regression in the underdetermined $n\ll p$ situation under realistic conditions. Using simulations and real-life high-dimensional data sets, we demonstrate that an explicit positive ridge penalty can fail to provide any improvement over the minimum-norm least squares estimator. Moreover, the optimal value of ridge penalty in this situation can be negative. This happens when the high-variance directions in the predictor space can predict the response variable, which is often the case in the real-world high-dimensional data. In this regime, low-variance directions provide an implicit ridge regularization and can make any further positive ridge penalty detrimental. We prove that augmenting any linear model with random covariates and using minimum-norm estimator is asymptotically equivalent to adding the ridge penalty. We use a spiked covariance model as an analytically tractable example and prove that the optimal ridge penalty in this case is negative when $n\ll p$.

연구 동기 및 목표

고차원 설정(n ≪ p)에서 대규모 모델이 항상 과오차를 방지하기 위해 강한 양의 정규화가 필요하다는 전통적 믿음을 도전하기 위해.
과소결정 선형 회귀에서 최소노름 최소제곱 추정량의 일반화 성능을 조사하기 위해.
명시적 릿지 정규화(λ > 0)가 성능 향상에 실패하는 조건을 규명하기 위해.
응답 변수가 예측 변수 공간의 고분산 방향에서 예측될 경우 최적의 릿지 페널티가 음수가 될 수 있음을 공식적으로 증명하기 위해.
임의의 공변수를 추가하고 최소노름 추정량을 사용하는 것과 최소노름 추정량을 통한 암묵적 릿지 정규화 사이의 이론적 및 실증적 연결을 수립하기 위해.

제안 방법

다양한 릿지 페널티 하에서 일반화 성능을 평가하기 위해 시뮬레이션과 실제 고차원 데이터셋(예: 유전체학, 화학계량학)을 사용한다.
스피iked 공분산 모델을 유도하고 분석하여 n ≪ p 조건에서 최적의 릿지 페널티가 음수가 될 수 있음을 분석적으로 보여준다.
선형 모델에 임의의 공변수를 추가하고 최소노름 추정량을 사용하는 것이 渐近적으로 릿지 정규화를 적용하는 것과 동일하다는 것을 증명한다.
커널 기법을 활용하여 최소노름 OLS 추정량이 커널 형태로 표현될 수 있음을 보여주며, 이는 무한차원 특징 공간으로의 확장을 가능하게 한다.
초기값이 0인 경사하강법이 최소노름 해로 수렴함을 보여주며, 최적화 역학과 암묵적 정규화를 연결한다.
다양한 데이터 환경에서 릿지 회귀(λ ≥ 0)의 위험(일반화 오차)을 최소노름 OLS 추정량(λ = 0)과 비교한다.

실험 결과

연구 질문

RQ1고차원 설정에서 최소노름 최소제곱 추정량이 양의 페널티를 가진 릿지 회귀보다 우월한 조건은 무엇인가?
RQ2고차원 선형 회귀에서 최적의 릿지 페널티가 음수가 될 수 있으며, 만약 그렇다면 그 이유는 무엇인가?
RQ3저분산 예측 변수 방향에서의 암묵적 릿지 정규화가 n ≪ p 상황에서 모델의 일반화에 어떤 영향을 미치는가?
RQ4최소노름 추정량에서 임의의 공변수를 추가하는 것과 암묵적 릿지 정규화 사이의 관계는 무엇인가?
RQ5왜 고차원 데이터에서는 양의 릿지 정규화가 전통적 직관과는 반대로 성능을 떨어뜨릴 수 있는가?

주요 결과

고차원, 과소결정 설정(n ≪ p)에서 최소노름 최소제곱 추정량(λ = 0)은 양의 페널티를 가진 릿지 회귀보다 잘 또는 동일하게 일반화될 수 있다.
응답 변수가 예측 변수 공간의 고분산 방향에서 예측될 경우 최적의 릿지 페널티는 음수가 될 수 있으며, 이는 추가적인 양의 정규화가 해로울 수 있음을 의미한다.
저분산 예측 변수 방향과 최소노름 제약 조건이 결합되어 암묵적 릿지 정규화를 제공하며, 이는 명시적 양의 릿지 페널티를 초월할 수 있다.
스피iked 공분산 모델을 통해 n ≪ p 이면서 신호가 고분산 방향에 있을 경우 최적의 릿지 페널티가 음수가 됨을 분석적으로 확인한다.
선형 모델에 임의의 공변수를 추가하고 최소노름 추정량을 사용하는 것은 특정 페널티를 가진 릿지 정규화와 渐近적으로 동일하다.
실제 데이터셋과 시뮬레이션 결과를 통해 양의 릿지 정규화가 최소노름 해를 초월해 일반화 성능을 향상시키지 못하는 경우가 자주 발생함을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.