QUICK REVIEW

[論文レビュー] On Spatial Lag Models estimated using crowdsourcing, web-scraping or other unconventionally collected data

Giuseppe Arbia, Vincenzo Nardelli|arXiv (Cornell University)|Oct 11, 2020

Spatial and Panel Data Analysis参考文献 17被引用数 1

ひとこと要約

本稿では、クラウドソーシングやウェブスクレイピングによる空間データなど、確率的でない便宜的サンプルデータを用いた場合の空間ラグモデル（SLM）推定におけるバイアス低減を目的として、事後サンプリング補正手法を提案する。同時に、推定量の分散の増加というトレードオフも認識している。最適な事後サンプリングパラメータの選定にあたっては、MSEを最小化する戦略を導出し、モンテカルロシミュレーションによる検証とミラノにおける不動産ホリスティックプライシングモデルへの応用を実施した。

ABSTRACT

The Big Data revolution is challenging the state-of-the-art statistical and econometric techniques not only for the computational burden connected with the high volume and speed which data are generated, but even more for the variety of sources through which data are collected (Arbia, 2021). This paper concentrates specifically on this last aspect. Common examples of non traditional Big Data sources are represented by crowdsourcing (data voluntarily collected by individuals) and web scraping (data extracted from websites and reshaped in a structured dataset). A common characteristic to these unconventional data collections is the lack of any precise statistical sample design, a situation described in statistics as 'convenience sampling'. As it is well known, in these conditions no probabilistic inference is possible. To overcome this problem, Arbia et al. (2018) proposed the use of a special form of post-stratification (termed 'post-sampling'), with which data are manipulated prior their use in an inferential context. In this paper we generalize this approach using the same idea to estimate a Spatial Lag Model (SLM). We start showing through a Monte Carlo study that using data collected without a proper design, parameters' estimates can be biased. Secondly, we propose a post sampling strategy to tackle this problem. We show that the proposed strategy indeed achieves a bias-reduction, but at the price of a concomitant increase in the variance of the estimators. We thus suggest an MSE-correction operational strategy. The paper also contains a formal derivation of the increase in variance implied by the post-sampling procedure and concludes with an empirical application of the method in the estimation of a hedonic price model in the city of Milan using web scraped data.

研究の動機と目的

クラウドソーシングやウェブスクレイピングデータなどの非確率的・便宜的サンプルデータを用いた場合の、空間計量経済モデルにおけるバイアス推定の課題に対処すること。
当初、母平均推定のために開発された事後サンプリング技術を、空間ラグモデル（SLM）の推定に一般化すること。
事後サンプリングによって引き起こされるバイアス低減と分散の増加のトレードオフを定量化すること。
実応用における最適な事後サンプリングパラメータの選定に向けたMSE補正戦略を提案・実装すること。
ウェブスクレイピングによる不動産データを用いたミラノにおけるホリスティックプライシングモデルの推定を通じて、本手法の実用可能性を示すこと。

提案手法

便宜的サンプルに生じる選択バイアスを補正するために、補助的母集団情報に基づいてデータを再重み付けする事後サンプリング戦略を適用する。
サンプリング重みを空間ラグモデル（SLM）のパラメータ推定に組み込む修正された尤度関数を用い、非一様な包含確率を補正する。
SLMの対数尤度関数のヘッセ行列を導出し、事後サンプリング下での推定量の漸近的分散・共分散行列を計算する。
推定されたフィッシャー情報行列を用いて、異なる事後サンプリング重みζにおける係数推定量β̂の漸近的分散を計算する。
バイアスと分散のトレードオフをバランスさせるために、最適な事後サンプリングパラメータζを特定するMSE最小化手順を提案する。
異なるサンプリング状況と事後サンプリングレベルにおけるバイアスとMSEを比較するモンテカルロシミュレーションスタディを通じて、本手法の妥当性を検証した。

実験結果

リサーチクエスチョン

RQ1便宜的サンプリングは、空間ラグモデル（SLM）におけるパラメータ推定のバイアスと分散にどのように影響を与えるか？
RQ2正式なサンプリング設計なしにデータを収集した場合、事後サンプリングによる再重み付けはSLM推定におけるバイアスを低減できるか？
RQ3SLM推定に事後サンプリングを適用した際の、バイアス低減と分散の増加のトレードオフはいかなるものか？
RQ4係数推定量の平均二乗誤差（MSE）を最小化するために、最適な事後サンプリングパラメータζをどのように選択できるか？
RQ5本手法は、非確率的空間データを用いた実世界の応用において、推定精度をどの程度向上できるか？

主な発見

モンテカルロスタディにより、便宜的サンプルデータを用いたSLMのパラメータ推定において、事後サンプリングが顕著にバイアスを低減することが示された。
事後サンプリング手順は推定量の分散を増加させることを確認し、バイアスと精度の根本的トレードオフが成立していることを裏付けた。
提案されたMSE補正戦略により、係数推定量のMSEを最小化する最適な事後サンプリングパラメータζを的確に特定できた。
ミラノの不動産市場への実証的応用では、ウェブスクレイピングによるデータから得られるホリスティックプライシングモデル推定値の信頼性が、事後サンプリングによって向上した。
尤度関数のヘッセ行列を用いて、係数推定量β̂の漸近的分散を明示的に導出し、ζのMSEに基づく最適化を可能にした。
本手法は単一予測子を有するSLMに対して有効であるが、多予測子モデルへの拡張および空間自己相関パラメータ推定への応用は、未解決の研究課題のままである。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。