[论文解读] Model-assisted estimation through random forests in finite population sampling
本文提出了一种基于模型的估计框架,用于有限总体抽样,利用随机森林非参数化地建模调查变量与辅助协变量之间的关系。通过将Horvitz-Thompson加权与基于森林的预测相结合,该方法在温和的正则性条件下实现了设计无偏性和一致性,理论证明了渐近方差估计的合理性,并在模拟和法国广播收听率调查的真实数据中表现出优异的有限样本性能。
In surveys, the interest lies in estimating finite population parameters such as population totals and means. In most surveys, some auxiliary information is available at the estimation stage. This information may be incorporated in the estimation procedures to increase their precision. In this article, we use random forests to estimate the functional relationship between the survey variable and the auxiliary variables. In recent years, random forests have become attractive as National Statistical Offices have now access to a variety of data sources, potentially exhibiting a large number of observations on a large number of variables. We establish the theoretical properties of model-assisted procedures based on random forests and derive corresponding variance estimators. A model-calibration procedure for handling multiple survey variables is also discussed. The results of a simulation study suggest that the proposed point and estimation procedures perform well in term of bias, efficiency, and coverage of normal-based confidence intervals, in a wide variety of settings. Finally, we apply the proposed methods using data on radio audiences collected by M\'ediam\'etrie, a French audience company.
研究动机与目标
- 提出一种基于随机森林的模型辅助估计程序,用于估计有限总体总值,以非参数化方式建模调查变量与辅助协变量之间的复杂关系。
- 在一般抽样设计下,建立所提出的基于随机森林的估计量的理论性质——设计一致性与渐近正态性。
- 为所提出的模型辅助估计量推导一个一致的方差估计量,从而支持通过置信区间进行有效推断。
- 通过模型校准程序将该方法扩展至多个调查变量。
- 在多种模拟设置和Médiamétrie公司提供的法国广播收听率真实数据应用中,评估所提方法的有限样本性能。
提出的方法
- 该方法使用随机森林从样本数据中非参数化地估计条件均值函数 m(x) = E[Y|X = x]。
- 所提出的估计量将基于森林的总体预测与残差上的Horvitz-Thompson风格校准相结合:btrf = Σk∈U m̂rf(xk) + Σk∈S (yk − m̂rf(xk))/πk。
- 该估计量在正则性条件下被证明具有设计一致性与渐近正态性,即使工作模型存在误设亦成立。
- 通过将预测误差分解为基于样本的成分与总体层面的成分,推导出一致的方差估计量 bVrf(btrf)。
- 理论分析依赖于将估计误差分解为涉及广义差值估计量的成分,以及样本与总体森林拟合之间差异的成分。
- 通过一种模型校准方法将该方法扩展至多个调查变量,以调整多个结果变量与辅助变量之间的联合关系。
实验结果
研究问题
- RQ1随机森林能否在模型辅助估计中被有效应用,以在不假设回归函数参数形式的前提下提高有限总体抽样中的估计精度?
- RQ2在一般抽样设计下,即使工作模型误设,所提出的基于随机森林的估计量是否仍具有设计一致性与渐近正态性?
- RQ3能否为基于随机森林的模型辅助估计量推导出一个一致的方差估计量,以支持通过置信区间进行有效推断?
- RQ4在有限样本中,该方法与经典估计量(如GREG)相比,在偏差、效率和置信区间覆盖方面表现如何?
- RQ5当同时估计多个调查变量时,该方法的模型校准扩展是否表现良好?
主要发现
- 所提出的基于随机森林的模型辅助估计量 btrf 在正则性条件下具有渐近设计一致性与渐近正态性,即使真实回归函数无法被森林良好近似亦成立。
- 理论方差估计量 bVrf(btrf) 被证明是渐近设计一致的,从而确保通过正态近似置信区间进行有效推断。
- 模拟研究显示,该方法在广泛的数据生成机制下均表现出低偏差、高效率以及良好的正态近似置信区间覆盖性能。
- 在调查变量与辅助协变量之间存在复杂非线性关系的场景中,该方法优于经典GREG估计量。
- 在法国广播收听率真实数据应用中,该方法产生了稳定且精确的估计结果,相较于参数化替代方法效率更高。
- 理论结果证实,当预测变量数量较多而样本量适中时,只要森林训练时采用足够的树深度与子采样比例,估计量仍保持一致性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。