[논문 리뷰] LASSO Methods for Gaussian Instrumental Variables Models
이 논문은 가우시안 오차 하에서 고차원 선형 계량투입변수 모형에서 최적의 도구변수를 추정하기 위해 LASSO, Post-LASSO, $√n$-LASSO, Post-$√n$-LASSO 방법을 제안한다. 진짜 도구변수 함수가 약간 희박한 경우, $p \gg n$의 도구변수 조건 하에서도 설계와 오차 구조에 대한 규칙성 조건을 만족할 경우, 이러한 추정량의 점근적 정규성과 오라클 효율성을 확립한다.
In this note, we propose to use sparse methods (e.g. LASSO, Post-LASSO, sqrt-LASSO, and Post-sqrt-LASSO) to form first-stage predictions and estimate optimal instruments in linear instrumental variables (IV) models with many instruments in the canonical Gaussian case. The methods apply even when the number of instruments is much larger than the sample size. We derive asymptotic distributions for the resulting IV estimators and provide conditions under which these sparsity-based IV estimators are asymptotically oracle-efficient. In simulation experiments, a sparsity-based IV estimator with a data-driven penalty performs well compared to recently advocated many-instrument-robust procedures. We illustrate the procedure in an empirical example using the Angrist and Krueger (1991) schooling data.
연구 동기 및 목표
- 표본 크기 $n$보다 훨씬 큰 도구변수의 수 $p$를 가진 상황에서 효율적인 계량투입변수 추정량을 개발하기 위해.
- 기존 방법이 실패하는 고차원 환경에서 관련 도구변수를 선택하는 데 도전하는 데 위해.
- 약간의 희박성 조건 하에서 희박성 추정 기반 IV 추정량의 점근적 정규성과 효율성을 확립하기 위해.
- 1단계 예측과 최적의 도구변수 구성에서 LASSO 유형 방법을 사용하는 데 이론적 근거를 제공하기 위해.
- 기존의 IV 이론을 일반화하기 위해 관련 도구변수의 알려지지 않은 지지집합과 구조 모형의 근사 오차를 允허하기 위해.
제안 방법
- 1단계에서 조건부 기대값 $D(x_i) = \mathbb{E}[y_{2i} \mid x_i]$인 최적의 도구변수를 추정하기 위해 $\ell_1$-정규화 추정(즉, LASSO, Post-LASSO, $\sqrt{\text{LASSO}}$, Post-$\sqrt{\text{LASSO}}$)을 사용한다.
- 진짜 도구변수 함수 $D(x_i)$가 약간 희박하다고 가정한다: $D(x_i) = f_i^T \beta_0 + a(x_i)$, 여기서 $\|a(x_i)\|_2 \lesssim \sigma_v \sqrt{s/n}$ 이고 $\|\beta_0\|_0 = s \ll n$이다.
- 고차원 설계를 적용하여 $p$개의 도구변수를 사용하며, $\mathbb{E}_n[f_{ij}^2] = 1$이 되도록 정규화하고, 희박성을 통해 과적합을 방지한다.
- 제약 고유값(RE) 및 희박성 강제(SE) 조건을 포함한 규칙성 조건 하에서, 도출된 IV 추정량의 점근적 분포를 유도한다.
- 진짜 $D(x_i)$를 사용한 비가능한 최적의 IV 추정량의 분산과 동일한 점근적 분산을 보이는 것으로 보여, 오라클 효율성을 확립한다.
- 추정 오차의 경계를 유도하고 1단계 추정의 수렴 속도를 도출하기 위해 경험 과정 이론과 농도 불등식을 사용한다.
실험 결과
연구 질문
- RQ1LASSO 유형 방법을 사용하여 고차원 IV 모형에서 $p \gg n$ 조건 하에 최적의 도구변수를 일관적으로 추정할 수 있는가?
- RQ2LASSO 기반 IV 추정량이 어떤 조건 하에서 점근적 정규성과 오라클 효율성을 달성하는가?
- RQ3유한 표본에서 희박성 추정 기반 IV 추정량의 성능은 기존의 다수 도구변수에 강건한 절차와 어떻게 비교되는가?
- RQ4진짜 도구변수 함수가 알려져 있지 않고 복잡한 경우, 약간의 희박성이 효율적 추정을 가능하게 하는 데 어떤 역할을 하는가?
- RQ5LASSO 유형 추정량에서 데이터 기반의 펜alties 선택이 IV 환경에서의 유한 표본 성능 향상에 기여할 수 있는가?
주요 결과
- 제안된 LASSO 기반 IV 추정량은 약간의 희박성 조건과 설계 행렬에 대한 규칙성 조건 하에서 점근적으로 정규분포를 따르며, 오라클 효율성을 달성한다.
- 적절한 펜alty 수준 하에서 추정 오차는 $\|f_i^T \delta\|_{2,n} \lesssim \sigma_v \sqrt{\frac{s \log p}{n}}$로 경계된다. 여기서 $\delta = \widehat{\beta} - \beta_0$이다.
- Post-LASSO 및 Post-$\sqrt{\text{LASSO}}$ 추정량은 오라클 추정량과 동일한 점근적 효율성을 달성하며, $\|\delta\|_2 \lesssim_P \sqrt{s/n}$을 만족한다.
- $\sqrt{\text{LASSO}}$ 추정량은 동일한 조건 하에서 LASSO와 동일한 수렴 속도를 달성하지만, 이방편성에 대해 더 뛰어난 내구성을 보인다.
- 시뮬레이션 결과는 데이터 기반 LASSO 기반 IV 추정량이 최근에 제안된 다수 도구변수에 강건한 절차보다 편향과 평균제곱오차 측면에서 뛰어난 성능을 보임을 보여준다.
- Angrist와 Krueger(1991)의 교육 데이터에 대한 실증 응용은 이 방법의 실용성과 실제 적용 가능성의 타당성을 확인한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.