[論文レビュー] Model-assisted estimation through random forests in finite population sampling
本稿では、調査変数と補助共変量の間の非パラメトリックな関係をランダムフォレストを用いて非パラメトリックにモデル化することにより、有限母集団抽出におけるモデル支援推定フレームワークを提案する。ホルヴィッツ=トムソン加重とフォレストベースの予測を組み合わせることで、弱い正則性条件のもとで設計不偏性と一貫性を達成し、漸近的分散推定の理論的裏付けが与えられ、フランスのラジオ聴取率調査の実データおよびシミュレーションにおいて優れた有限標本性能を示す。
In surveys, the interest lies in estimating finite population parameters such as population totals and means. In most surveys, some auxiliary information is available at the estimation stage. This information may be incorporated in the estimation procedures to increase their precision. In this article, we use random forests to estimate the functional relationship between the survey variable and the auxiliary variables. In recent years, random forests have become attractive as National Statistical Offices have now access to a variety of data sources, potentially exhibiting a large number of observations on a large number of variables. We establish the theoretical properties of model-assisted procedures based on random forests and derive corresponding variance estimators. A model-calibration procedure for handling multiple survey variables is also discussed. The results of a simulation study suggest that the proposed point and estimation procedures perform well in term of bias, efficiency, and coverage of normal-based confidence intervals, in a wide variety of settings. Finally, we apply the proposed methods using data on radio audiences collected by M\'ediam\'etrie, a French audience company.
研究の動機と目的
- 調査変数と補助共変量の間の複雑な非パラメトリックな関係をランダムフォレストでモデル化することにより、有限母集団合計のためのモデル支援推定手順を開発すること。
- 一般の抽出設計のもとで、提案されたランダムフォレストベースの推定量の理論的性質—設計の一貫性と漸近的正規性—を確立すること。
- 提案されたモデル支援推定量のための一貫性のある分散推定量を導出することにより、信頼区間による有効な推論を可能にすること。
- 複数の調査変数を同時に推定するためのモデルキャリブレーション手順を用いて、この手法を拡張すること。
- 多様なシミュレーション設定およびMédiamétrieのラジオ聴取率データを用いた実世界の応用において、提案手法の有限標本性能を評価すること。
提案手法
- この手法は、標本データから条件付き平均関数 m(x) = E[Y|X = x] をランダムフォレストを用いて非パラメトリックに推定する。
- 提案された推定量は、ランダムフォレストからの母集団レベルの予測と、残差に対するホルヴィッツ=トムソン風のキャリブレーションを組み合わせる:btrf = Σk∈U m̂rf(xk) + Σk∈S (yk − m̂rf(xk))/πk。
- 正則性条件のもとで、推定量は設計の一貫性と漸近的正規性を示すことが示され、作業モデルが誤った場合でも成立する。
- 予測誤差を標本ベースの成分と母集団レベルの成分に分解することにより、一貫性のある分散推定量 bVrf(btrf) が導出される。
- 理論的分析は、一般化差分推定量と標本および母集団のフォレスト適合の差異を含む成分に推定誤差を分解することに依拠する。
- 複数の結果変数と補助変数の同時関係を調整するためのモデルキャリブレーションアプローチを用いて、この手法を複数の調査変数に拡張する。
実験結果
リサーチクエスチョン
- RQ1非パラメトリックな回帰関数の形を仮定しない状況でも、ランダムフォレストをモデル支援推定に効果的に用いることで、有限母集団抽出における精度を向上させることができるか?
- RQ2作業モデルが誤っている場合でも、一般の抽出設計のもとで、提案されたランダムフォレストベースの推定量が設計の一貫性と漸近的正規性を満たすか?
- RQ3ランダムフォレストベースのモデル支援推定量のための一貫性のある分散推定量を導出できるか? これにより、信頼区間による有効な推論が可能になるか?
- RQ4バイアス、効率性、信頼区間のカバレッジという観点から、提案手法は古典的推定量(例:GREG)と比較して、有限標本で優れた性能を示すか?
- RQ5複数の調査変数を同時に推定する際、モデルキャリブレーションの拡張が良好に機能するか?
主な発見
- 提案されたランダムフォレストベースのモデル支援推定量 btrf は、正則性条件のもとで、真の回帰関数がフォレストによってよく近似されない場合でも、漸近的に設計の一貫性と漸近的正規性を満たす。
- 理論的分散推定量 bVrf(btrf) が漸近的に設計の一貫性を示すことが示され、正規分布に基づく信頼区間による有効な推論が保証される。
- シミュレーション研究では、データ生成メカニズムが多様な状況において、バイアスが低く、効率性が高く、正規分布に基づく信頼区間のカバレッジも良好であることが示された。
- 調査変数と補助共変量の間に複雑な非線形関係がある状況では、古典的GREG推定量よりも本手法が優れた性能を示した。
- フランスのラジオ聴取率データを用いた実データ応用において、本手法はパラメトリックな代替手法と比較して安定的かつ高精度な推定を達成し、効率性が向上した。
- 理論的結果は、フォレストが十分な木の深さとサブサンプリングで学習された場合、予測子の数が多くても標本サイズが中程度であっても、推定量が一貫性を保つことを確認した。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。