[논문 리뷰] Semi-supervised linear regression with missing covariates
이 논문은 라벨링된 데이터의 공변량이 누락되고 추가로 비라벨링 데이터가 있을 때 선형 회귀에 대한 추정기를 개발하며, 구조적 및 비구조적 누락이 있는 상황에서 저- 및 고차원 결과와 미니맥스 최적성을 다룬다.
Missing values in datasets are common in applied statistics. For regression problems, theoretical work thus far has largely considered the issue of missing covariates as distinct from missing responses. However, in practice, many datasets have both forms of missingness. Motivated by this gap, we study linear regression with a labelled dataset containing missing covariates, potentially alongside an unlabelled dataset. We consider both structured (blockwise-missing) and unstructured missingness patterns, along with sparse and non-sparse regression parameters. For the non-sparse case, we provide an estimator based on imputing the missing data combined with a reweighting step. For the high-dimensional sparse case, we use a modified version of the Dantzig selector. We provide non-asymptotic upper bounds on the risk of both procedures. These are matched by several new minimax lower bounds, demonstrating the rate optimality of our estimators. Notably, even when the linear model is well-specified, our results characterise substantial differences in the minimax rates when unlabelled data is present relative to the fully supervised setting. Particular consequences of our sparse and non-sparse results include the first matching upper and lower bounds on the minimax rate for the supervised setting when either unstructured or structured missingness is present. Our theory is coupled with extensive simulations and a semi-synthetic application to the California housing dataset.
연구 동기 및 목표
- 부분적으로 라벨링된 데이터에서 누락된 공변량이 있는 회귀를 동기부여하고 비라벨 데이터의 잠재적 이점을 제시한다.
- MCAR 누락 아래 저- 및 고차원 설정에 대한 미니맥스 속도 특성화를 한다.
- 비라벨 데이터와 누락 공변량 패턴을 활용하는 실용적 추정기를 개발한다.
- 구조적 대 비구조적 누락 패턴 간의 이론적 보장(상한 및 하한)과 통찰을 제공한다.
제안 방법
- 추정된 공변량을 기반으로 투영을 통해 누락된 공변량을 보정하는 볼록화된 추정기를 정의하고 가중 최소제곱법(식(4))을 수행한다.
- O_k 및 M_k로 누락 패턴을 도입하고 가중치 D_k(oracle D_k^* 및 데이터 기반 〃inancial〃)으로 라벨링된 데이터와 비라벨링된 정보를 균형 있게 조정한다.
- 저차원 결과를 확장하기 위해 OSS(ordinary semi-supervised) 및 감독형 이중 교차 적합(two-fold cross-fitting) 스킴을 개발한다.
- 리스크에 대한 비점근적 상한과 이를 일치하는 미니맥스 하한을 제공하여 속도 최적성을 확립한다.
- 구조적(블록형) 및 비구조적 누락을 모두 다루고 명시적인 유효표본크기 해석(alpha_i)을 제시한다.
- 오차 가능성에 강건하고 고차원 환경에 적용 가능한 공변량 추정 단계와 가중치 추정 절차를 제공한다.

실험 결과
연구 질문
- RQ1라벨링된 샘플의 누락된 공변량이 있을 때 비라벨 데이터는 어떻게 사용될 수 있는가?
- RQ2구조적 대 비구조적 누락 패턴은 최적 추정 속도에 어떤 영향을 미치는가?
- RQ3MCAR 누락하에서 저- 및 고차원 규칙 모두에서 속도 최적화가 가능한가?
- RQ4블록형 데이터의 OSS 및 감독 설정에서 미니맥스 위험과 속도는 어떤가?
주요 결과
- 제안된 볼록 완화가 도출하는 추정기의 위험은 ISS 항과 공변량 추정 오차에 의존하는 항으로 분리된다.
- 저차원 OSS 설정에서 블록형 누락 및 비구조적 패턴 모두에 대해 위험의 상한과 일치하는 하한이 제시된다.
- 고차원 설정에서 논쟁을 해소하는 하한을 제공하고 OSS까지 상한을 확장하여 상수만 다르면 속도와 일치하는 속도를 얻는다.
- 비라벨 데이터는 단순 한 방향 증가 패턴에서 유효 차원 축소를 감소시키고 비구조적 패턴에서 유효 표본 크기를 rho에서 rho^{1/2}로 증가시킬 수 있다.
- 방법은 주어진 가정 하에서 속도 최적의 결과를 제공하며 ISS 기여와 공변량 추정 오차를 구분하는 명시적 경계가 있다.
- 해당 분석에는 시뮬레이션과 반합성 캘리포니아 주 주택 데이터셋 적용이 포함되어 있다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.