QUICK REVIEW

[논문 리뷰] On Spatial Lag Models estimated using crowdsourcing, web-scraping or other unconventionally collected data

Giuseppe Arbia, Vincenzo Nardelli|arXiv (Cornell University)|2020. 10. 11.

Spatial and Panel Data Analysis참고 문헌 17인용 수 1

한 줄 요약

이 논문은 비확률적, 편의 표본 자료(예: 커뮤니티 기반 또는 웹 스크래핑된 공간 자료)를 사용할 때 공간 자기상관 모형(SLM) 추정치의 편향을 줄이기 위해 사후 표본 조정 방법을 제안한다. 이는 추정치의 분산 증가와의 트레이드오프를 수반하지만, 최적의 사후 표본 조정 파라미터를 선택하기 위한 MSE 최소화 전략을 유도하며, 몬테카를로 시뮬레이션을 통해 검증되고 밀라노의 부동산 헤디온릭 가격 모형에 적용되었다.

ABSTRACT

The Big Data revolution is challenging the state-of-the-art statistical and econometric techniques not only for the computational burden connected with the high volume and speed which data are generated, but even more for the variety of sources through which data are collected (Arbia, 2021). This paper concentrates specifically on this last aspect. Common examples of non traditional Big Data sources are represented by crowdsourcing (data voluntarily collected by individuals) and web scraping (data extracted from websites and reshaped in a structured dataset). A common characteristic to these unconventional data collections is the lack of any precise statistical sample design, a situation described in statistics as 'convenience sampling'. As it is well known, in these conditions no probabilistic inference is possible. To overcome this problem, Arbia et al. (2018) proposed the use of a special form of post-stratification (termed 'post-sampling'), with which data are manipulated prior their use in an inferential context. In this paper we generalize this approach using the same idea to estimate a Spatial Lag Model (SLM). We start showing through a Monte Carlo study that using data collected without a proper design, parameters' estimates can be biased. Secondly, we propose a post sampling strategy to tackle this problem. We show that the proposed strategy indeed achieves a bias-reduction, but at the price of a concomitant increase in the variance of the estimators. We thus suggest an MSE-correction operational strategy. The paper also contains a formal derivation of the increase in variance implied by the post-sampling procedure and concludes with an empirical application of the method in the estimation of a hedonic price model in the city of Milan using web scraped data.

연구 동기 및 목표

비확률적, 편의 표본 자료(예: 커뮤니티 기반 또는 웹 스크래핑된 데이터셋)를 사용할 때 공간 계량경제 모형에서의 편향된 모수 추정 문제를 다루는 것.
기존에 인구 평균 추정을 위해 개발된 사후 표본 기법을 공간 자기상관 모형(SLM)의 추정으로 일반화하는 것.
사후 표본 조정이 SLM 추정에 도입하는 편향 감소와 분산 증가 사이의 트레이드오프를 정량화하는 것.
실증 응용에서 최적의 사후 표본 조정 파라미터를 선택하기 위한 MSE 보정 전략을 제안하고 구현하는 것.
웹 스크래핑된 부동산 자료를 사용하여 밀라노에서 헤디온릭 가격 모형을 추정하는 실증 적용을 통해 방법의 실현 가능성을 입증하는 것.

제안 방법

편의 표본의 선택 편향을 보정하기 위해 보조 인구 정보를 기반으로 데이터를 재가중하는 사후 표본 전략을 적용한다.
표본 가중치를 SLM 모수 추정에 통합시킨 수정된 최대우도 함수를 사용하여 포함 확률이 일치하지 않을 경우를 조정한다.
SLM의 로그우도 함수의 헤시안 행렬을 유도하여 사후 표본 조건 하에서 추정량의 점근적 분산-공분산 행렬을 계산한다.
추정된 피셔 정보 행렬을 사용하여 다양한 사후 표본 가중치 ζ 하에서 계수 추정량 β̂ 의 점근적 분산을 계산한다.
편향과 분산 간 트레이드오프를 균형 잡는 데 목적이 있는 MSE 최소화 절차를 통해 최적의 사후 표본 조정 파라미터 ζ 를 선택하는 전략을 제안한다.
다양한 표본 조건과 사후 표본 수준에서 편향과 MSE 를 비교한 몬테카를로 시뮬레이션 연구를 통해 방법을 검증한다.

실험 결과

연구 질문

RQ1편의 표본이 공간 자기상관 모형의 모수 추정치의 편향과 분산에 어떤 영향을 미치는가?
RQ2공식적인 표본 설계 없이 데이터를 수집할 경우, 사후 표본 재가중이 SLM 추정에서 편향을 줄일 수 있는가?
RQ3SLM에 사후 표본을 적용할 때 편향 감소와 분산 증가 사이의 트레이드오프는 어떠한가?
RQ4계수 추정량의 평균제곱오차(MSE)를 최소화하기 위해 최적의 사후 표본 조정 파라미터 ζ 는 어떻게 선택할 수 있는가?
RQ5제안된 방법이 비확률적 공간 자료를 사용한 실제 응용에서 추정 정확도를 얼마나 향상시키는가?

주요 결과

몬테카를로 연구를 통해 편의 표본 자료를 사용할 경우 사후 표본 조정이 SLM 모수 추정치의 편향을 상당히 줄임을 입증하였다.
사후 표본 절차는 추정량의 분산을 증가시켜, 편향과 정밀도 사이의 기본적인 트레이드오프를 확인하였다.
제안된 MSE 보정 전략은 계수 추정량의 평균제곱오차를 최소화하는 최적의 사후 표본 조정 파라미터 ζ 를 성공적으로 식별하였다.
밀라노 부동산 시장에 대한 실증 적용에서 사후 표본 조정이 웹 스크래핑된 자료에서 유도된 헤디온릭 가격 모형 추정치의 신뢰도를 향상시켰다.
계수 추정량 β̂ 의 점근적 분산은 우도 함수의 헤시안을 사용하여 명시적으로 유도되었으며, 이는 ζ 의 MSE 기반 최적화를 가능하게 하였다.
이 방법은 단일 예측 변수를 가진 SLM에 효과적이지만, 다중 예측 변수 모형 및 공간 상관 구조 모수 추정으로의 확장은 여전히 열려 있는 연구 과제이다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.