[论文解读] Orthogonal Random Forest for Causal Inference
本文提出正交随机森林(Orthogonal Random Forest, ORF),一种新颖算法,将Neyman正交性与广义随机森林相结合,实现对高维观测数据中异质处理效应的稳健、非参数估计。该方法在扰动函数估计存在误差时,仅需较弱的一致性条件,仍能保持渐近正态性与有效推断,并提出一种新型的Forest Lasso方法,用于具有局部稀疏结构的高维扰动函数估计。
We propose the orthogonal random forest, an algorithm that combines Neyman-orthogonality to reduce sensitivity with respect to estimation error of nuisance parameters with generalized random forests (Athey et al., 2017)--a flexible non-parametric method for statistical estimation of conditional moment models using random forests. We provide a consistency rate and establish asymptotic normality for our estimator. We show that under mild assumptions on the consistency rate of the nuisance estimator, we can achieve the same error rate as an oracle with a priori knowledge of these nuisance parameters. We show that when the nuisance functions have a locally sparse parametrization, then a local $\ell_1$-penalized regression achieves the required rate. We apply our method to estimate heterogeneous treatment effects from observational data with discrete treatments or continuous treatments, and we show that, unlike prior work, our method provably allows to control for a high-dimensional set of variables under standard sparsity conditions. We also provide a comprehensive empirical evaluation of our algorithm on both synthetic and real data.
研究动机与目标
- 解决在存在高维混杂因素的观测数据中估计异质处理效应的挑战。
- 开发一种方法,即使在扰动函数估计存在误差时,仍能保持渐近正态性与有效推断。
- 将广义随机森林的灵活性与Neyman正交估计方程的稳健性相结合。
- 在稀疏条件下,控制高维扰动参数的同时,实现处理效应的非参数估计。
- 为复杂高维场景下的因果推断提供一种实用且经验验证有效的算法。
提出的方法
- 提出正交随机森林(ORF),一种两阶段随机森林算法,利用Neyman正交估计方程降低对扰动参数估计误差的敏感性。
- 将广义随机森林(Athey et al., 2017)与双重机器学习原理结合,稳健估计条件矩模型。
- 采用一种新颖的扰动函数估计方法——Forest Lasso,通过局部ℓ₁-惩罚回归恢复具有高维性与局部稀疏性的扰动函数。
- 利用U统计量集中不等式与Lasso理论,建立Forest Lasso估计量的理论一致性速率。
- 将正交估计方程框架应用于异质处理效应问题,其中目标为θ₀(x),扰动函数f₀(x,W)捕捉混杂因素的影响。
- 采用交叉拟合与双重稳健性原则,确保在对扰动估计器弱正则性条件下仍能实现有效推断。
实验结果
研究问题
- RQ1能否使像随机森林这样的非参数方法在高维扰动函数估计误差下仍具备因果推断的稳健性?
- RQ2在何种条件下,灵活估计器能达到与已知扰动参数的“虚拟”估计器相同的收敛速率?
- RQ3基于随机森林的方法能否在高维控制变量下,对异质处理效应实现渐近正态推断?
- RQ4扰动函数的局部稀疏参数化是否能通过Forest Lasso方法实现一致估计?
- RQ5在高维、异质处理效应估计中,ORF与现有方法相比在偏差、方差与置信区间覆盖方面表现如何?
主要发现
- 当扰动估计器以足够快的速率一致时,ORF能达到与已知扰动参数的虚拟估计器相同的渐近误差速率。
- 在标准稀疏条件下,若扰动函数具有局部稀疏参数化结构,Forest Lasso方法可实现所需的一致性速率。
- 在n=5000、p=500的模拟中,ORF-CV在所有支持大小与评估指标下,均优于其他方法,且在一维与二维异质性设定中表现一致优异。
- 在x₂ ∈ {0,1}的二维异质性设定中,ORF-CV在各切片中均保持低偏差与低方差,且95%置信区间在所有情况下均覆盖真实处理效应。
- 该方法在离散与连续处理设定下,均能有效控制高维混杂因素,实现无需对处理效应函数做参数假设的有效推断。
- 在合成数据与真实数据上的实证结果表明,ORF即使在复杂高维扰动函数下,仍能提供准确、稳健且渐近正态的异质处理效应估计。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。