Skip to main content
QUICK REVIEW

[논문 리뷰] Bayesian hierarchical weighting adjustment and survey inference

Yajuan Si, Rob Trangucci|arXiv (Cornell University)|2017. 07. 25.
Statistical Methods and Bayesian Inference참고 문헌 43인용 수 28
한 줄 요약

이 논문은 유한 모집단 추론을 향상시키기 위해 가중치와 다수준 회귀 및 후편집(MRP)을 통합하는 통합 베이지안 계층적 프레임워크를 제안한다. 특히 소규모 하위군에 대해 유의미한 개선을 이룬다. 모든 포함 관련 변수에 조건부로 설문 결과를 모델링하고 고차원 상호작용의 안정성을 높이기 위해 구조적 사전분포를 사용함으로써, 변동성이 줄어들고 전통적 가중치 방법보다 더 견고한 모델 기반 가중치를 생성한다.

ABSTRACT

We combine Bayesian prediction and weighted inference as a unified approach to survey inference. The general principles of Bayesian analysis imply that models for survey outcomes should be conditional on all variables that affect the probability of inclusion. We incorporate the weighting variables under the framework of multilevel regression and poststratification, as a byproduct generating model-based weights after smoothing. We investigate deep interactions and introduce structured prior distributions for smoothing and stability of estimates. The computation is done via Stan and implemented in the open source R package "rstanarm" ready for public use. Simulation studies illustrate that model-based prediction and weighting inference outperform classical weighting. We apply the proposal to the New York Longitudinal Study of Wellbeing. The new approach generates robust weights and increases efficiency for finite population inference, especially for subsets of the population.

연구 동기 및 목표

  • 고전적 설문 가중치의 한계를 해결하기 위해, 임의의 선택에 의존하고 극단적인 가중치로 인해 변동성이 큰 문제를 해결한다.
  • 복잡한 설계 특성과 보조 변수를 일관된 모델 기반 프레임워크에 통합하여 소면적 추정을 향상시킨다.
  • 다수준 모델에서 고차원 상호작용 항을 안정화하기 위해 구조적 사전분포를 개발한다.
  • Stan과 rstanarm R 패키지를 사용하여 공개용으로 사용 가능한 확장성 있고 계산 효율적인 설문 추론 방법을 제공한다.
  • 예측 모델에 기반한 가중치 조정을 통해 비확률 설문과 데이터 통합에서 견고한 추론을 가능하게 한다.

제안 방법

  • 모든 포함에 영향을 주는 변수에 조건부로 설문 결과를 예측하는 베이지안 계층적 모델을 설정하여 설계 기반 원칙과의 모델 호환성을 확보한다.
  • 고전적 가중치 조정을 다수준 회귀 및 후편집(MRP) 프레임워크에 통합하여 스무딩을 통해 모델 기반 가중치를 생성한다.
  • 예: 연령×민족×교육 수준과 같은 고차원 상호작용 항을 수축시키기 위해 구조적 사전분포를 적용함으로써 안정성 향상과 과적합 방지를 도모한다.
  • Stan을 통한 마르코프 체인 몬테카를로(MCMC)를 사용하여 후행 추론을 수행함으로써 전체 불확실성 정량화와 견고한 분산 추정이 가능하다.
  • 후편집를 통해 모델 기반 가중치를 알려진 모집단 총합에 캘리브레이션하여 캘리브레이션을 유지하면서도 모델 기반 스무딩을 보존한다.
  • 오픈소스 rstanarm R 패키지에 이 방법을 구현하여 연구자들이 접근하고 재현 가능한 설문 추론을 수행할 수 있도록 한다.

실험 결과

연구 질문

  • RQ1통합 베이지안 프레임워크가 가중치와 예측을 하나의 일관된 모델에 통합함으로써 유한 모집단 추론을 향상시킬 수 있는가?
  • RQ2고차원 상호작용 항에 대한 구조적 사전분포가 설문 데이터에서 소면적 추정의 안정성과 정확도를 어떻게 향상시키는가?
  • RQ3모델 기반 가중치가 변동성 감소와 견고성 측면에서 고전적 설계 기반 가중치보다 얼마나 뛰어나게 성능을 발휘하는가?
  • RQ4이 방법은 희소한 하위군을 포함한 복잡하고 균형이 깨진 설계에서 어떻게 성능을 발휘하는가?
  • RQ5이 방법은 비확률 설문과 데이터 통합 작업에 효과적으로 적용될 수 있는가?

주요 결과

  • 제안된 베이지안 계층적 가중치 방법은 고전적 가중치 방법에 비해 특히 소규모 하위군의 경우에 있어 표본 추정의 변동성을 크게 감소시킨다.
  • 스무딩과 구조적 사전분포를 통해 생성된 모델 기반 가중치는 기존의 역확률 가중치보다 극단적 값에 덜 민감하고 더 안정적이다.
  • 시뮬레이션 연구 결과, 이 방법은 균형이 깨진 설계 조건에서도 평균제곱오차와 신뢰구간 커버리지 확률 측면에서 고전적 가중치를 능가한다.
  • 상호작용 항에 대한 구조적 사전분포의 포함은 희소 셀에서 더 신뢰할 수 있는 추정을 가능하게 하여 과적합을 줄이고 일반화 능력을 향상시킨다.
  • rstanarm의 구현은 효율적인 계산과 실용적 적용을 가능하게 하였으며, 뉴욕 복지 종단연구 적용 사례에서 강력한 성능을 보였다.
  • 유클리드 거리 측도 분석 결과, 모델 기반 가중치(St-W)는 레이킹(Rake-W)이나 후편집(PS-W)보다 모집단 분포와 더 가까운 일치를 보였으며, 보다 우수한 캘리브레이션과 균형을 의미한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.