[論文レビュー] LASSO Methods for Gaussian Instrumental Variables Models
本稿では、ガウス誤差のもとで、高次元線形インスツルメンタル変数モデルにおいて、真のインスツルメンタル関数が近似的にスパースである場合に、LASSO、Post-LASSO、$√n$-LASSO、Post-$√n$-LASSO手法を用いて最適インスツルメンタルを推定することを提案する。設計および誤差構造に関する正則性条件のもとで、$p \gg n$ のインスツルメンタルを有する状況においても、これらの推定量の漸近正規性とオラクル効率性が確立される。
In this note, we propose to use sparse methods (e.g. LASSO, Post-LASSO, sqrt-LASSO, and Post-sqrt-LASSO) to form first-stage predictions and estimate optimal instruments in linear instrumental variables (IV) models with many instruments in the canonical Gaussian case. The methods apply even when the number of instruments is much larger than the sample size. We derive asymptotic distributions for the resulting IV estimators and provide conditions under which these sparsity-based IV estimators are asymptotically oracle-efficient. In simulation experiments, a sparsity-based IV estimator with a data-driven penalty performs well compared to recently advocated many-instrument-robust procedures. We illustrate the procedure in an empirical example using the Angrist and Krueger (1991) schooling data.
研究の動機と目的
- 標本サイズ $n$ よりもはるかに大きな数のインスツルメンタル $p$ がある状況で、効率的なインスツルメンタル変数推定量を開発すること。
- 従来の手法が失敗する高次元設定において、関連するインスツルメンタルの選択という課題に取り組むこと。
- 近似的スパarsity 条件のもとで、スパース推定に基づく IV 推定量の漸近正規性と効率性を確立すること。
- 第一段階の予測および最適インスツルメンタル構築において LASSO 型手法を用いる理論的根拠を提供すること。
- 関連インスツルメンタルのサポートが未知であり、構造的モデルに近似誤差が存在する状況を許容するように、古典的 IV 理論を一般化すること。
提案手法
- 条件付き期待値 $D(x_i) = \mathbb{E}[y_{2i} \mid x_i]$、すなわち最適インスツルメンタルを推定するために $\ell_1$-正則化推定(LASSO、Post-LASSO、$\sqrt{\text{LASSO}}$、Post-$\sqrt{\text{LASSO}}$)を用いる。
- 真のインスツルメンタル関数 $D(x_i)$ が近似的にスパースであると仮定する:$D(x_i) = f_i^T \beta_0 + a(x_i)$、ここで $\|a(x_i)\|_2 \lesssim \sigma_v \sqrt{s/n}$ かつ $\|\beta_0\|_0 = s \ll n$。
- 正規化された $p$ 個のインスツルメンタルを有する高次元設計を導入し、$\mathbb{E}_n[f_{ij}^2] = 1$ とし、スパarsity を用いて過剰適合を回避する。
- 制限固有値(RE)およびスパarsity を促進する(SE)条件を含む正則性条件のもとで、得られた IV 推定量の漸近分布を導出する。
- 真の $D(x_i)$ を使用する非実現的最適 IV 推定量の漸近分散と等しいことを示すことにより、オラクル効率性を確立する。
- 推定誤差のバウンドおよび第一段階推定の収束速度の導出のため、経験過程理論および集中不等式を用いる。
実験結果
リサーチクエスチョン
- RQ1LASSO 型手法を用いて、$p \gg n$ の高次元 IV モデルにおいて、最適インスツルメンタルを一貫して推定できるか?
- RQ2LASSO ベースの IV 推定量が、どのような条件下で漸近正規性およびオラクル効率性を達成するか?
- RQ3有限標本において、スパース推定に基づく IV 推定量の性能は、最近の多くのインスツルメンタルに強い手続きと比べてどうなるか?
- RQ4真のインスツルメンタル関数が未知で複雑な状況において、近似的スパarsity が効率的推定を可能にする役割は何か?
- RQ5LASSO 型推定量におけるデータ駆動型ペナルティ選択は、IV 懸念において有限標本性能を向上させることができるか?
主な発見
- 提案された LASSO ベースの IV 推定量は、近似的スパarsity 条件および設計行列に関する正則性条件のもとで、漸近正規性を満たし、オラクル効率性を達成する。
- 適切なペナルティ水準のもとで、第一段階のインスツルメンタル予測子の推定誤差は $\|f_i^T \delta\|_{2,n} \lesssim \sigma_v \sqrt{\frac{s \log p}{n}}$ とバウンドされ、ここで $\delta = \widehat{\beta} - \beta_0$。
- Post-LASSO および Post-$\sqrt{\text{LASSO}}$ 推定量は、オラクル推定量と同等の漸近的効率性を達成し、$\|\delta\|_2 \lesssim_P \sqrt{s/n}$ が成り立つ。
- $\sqrt{\text{LASSO}}$ 推定量は、同じ条件下で LASSO と同等の収束速度を達成し、異分散性に対してより高いロバストネスを示す。
- シミュレーション結果から、データ駆動型 LASSO ベースの IV 推定量は、最近提案された多くのインスツルメンタルに強い手続きよりもバイアスおよび平均二乗誤差の観点で優れていることが示された。
- Angrist と Krueger (1991) の教育水準データへの実応用により、本手法の実用的妥当性および現実世界での関連性が確認された。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。